![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 68
人工智
个人记录博客,不推荐阅读
展开
-
「中间件系列一」kafka消息中间件
一:为什么需要消息中间件?1.解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性: 因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。4.灵活性 &原创 2021-12-04 22:59:05 · 1270 阅读 · 0 评论 -
RStudio(You‘re using a non-UTF8 locale, therefore only ASCII characters will work)
Open Terminal Write or paste in:defaults write org.R-project.R force.LANG en_US.UTF-8 Close Terminal (including any RStudio window) Restart R转载 2021-10-12 23:41:08 · 483 阅读 · 0 评论 -
ElasticSearch和mongodb的对比
一.ElasticSearch介绍ElasticSearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用ElasticSearch的水平伸缩性,能使数据在生产环境变得更有价值。ElasticSearch 的实现原理主要分为以下几个步骤,首先用户将数据提交到Elastic Search 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。转载 2021-06-29 23:06:04 · 7536 阅读 · 0 评论 -
python读取txt文件并批量写入不同的excel
背景python处理数据最重要的就是诸如numpy、pandas这种工具了接到媳妇儿的一个需求,要我帮她将多个文件夹的txt文件按照文件夹写入到按照文件夹命名的Excel中。本打算用java来实现,搞了一个小时决定放弃,哈哈哈。java还是适合写点crud和web项目。于是,我又捡起来荒废已久的python。这种数据处理类,我还是喜欢即写即得的jupyter notebook。第一步:遍历文件夹取得所有txt文件并修正:概述os.listdir() 方法用于返回指定的文件夹包含的文件原创 2020-12-13 23:17:54 · 4322 阅读 · 1 评论 -
数据分析入门(二)
数据分析离不开数据,但是数据中的联系和规律必须以简单明了的形式展现出来,因为数据的规律是要展现给别人看的,好的可视化是会讲故事的,而故事讲的好的人就是世界上最需要的人。数据可视化 -通过图表形式展现数据,帮助用户快速、准确理解信息。准确、快速是可视化的关键,好的可视化会“讲故事”,能向我们揭示数据背后的规律。对于可视化,有一个常见误区:分析师追求过于复...原创 2020-04-12 17:09:40 · 228 阅读 · 0 评论 -
数据分析入门(第一课)
为了我在读硕士的媳妇入门数据分析,我决定开一门从零开始数据分析的博文。即具有实用性又没那么复杂的数学公式,拿来主义的博文。要学会数据分析,特别是需要掌握数据的特征,我们首先需要了解一些基本的概念。第一:数据分析要解决什么问题?根据数据的特征,来预测数据的走向?分析数据的趋势或者离散程度?或者仅仅是对比几组数据在某个指标上的好坏?或者是对用户进行画像?在我媳妇儿的生化领域,一般来说就...原创 2020-04-06 18:31:49 · 348 阅读 · 0 评论