数据分析和机器学习算法
文章平均质量分 57
莫言于方
这个作者很懒,什么都没留下…
展开
-
使用正则表达式和json.loads,将JSON文件中的数据转化为pandas.DataFrame
使用正则表达式和json.loads,将JSON文件中的数据转化为pandas.DataFrame说在前面在使用Scrapy框架(爬虫框架)爬取网页信息时,会定义一个ITEMS,然后通过PIPLINE将数据写入到JSON文件中,如果是按行写入,则最后得到的数据就不是一个标准JSON格式的数据,在进行数据分析时,就会比较艰难。所以本文旨在用两种方法解决这个问题。方法说明本文分别使用Pytho...原创 2018-10-20 23:51:22 · 1519 阅读 · 0 评论 -
R语言Kmeans聚类实例
随机数生成40对点,每一个点2维,聚成4类,并且画出聚类图形!Kmeans算法原理K均值法先指定聚类数,目标是使每个数据到数据点所属聚类中心的总距离的平方和最小,规定聚类中心点时则是以该类数据点的平均值作为聚类中心。步骤随机选取K个数据点作为(起始的)聚类中心点;按照距离最近原则分配数据点到对应类;计算每类的数据点平均值,找到新的聚类中心;计算数据点到聚类中心的总距离;如果与上一...原创 2018-10-28 22:47:17 · 9632 阅读 · 0 评论 -
python--boss直聘数据可视化
python 数据可视化本文中主要使用matplotlib和Pandas对数据进行可视化数据来源:爬取的BOOS直聘数据分析数据数据展示本文中针对以上数据,对salary,company_info,work_time,education这几个信息进行数据可视化,做出直方图和饼图整体框架先看一下使用的包吧import re #正则表达式模块import json #json模块...原创 2018-10-21 23:55:34 · 3146 阅读 · 3 评论 -
python分析log图像趋势变化
本文分析log函数在不同底的情况下,图像趋势的变化分别画出三个不同底数的log函数图像进行展示log1.5(x)log2(x)log2.5(x)代码展示def log_change(): #得到底数 x = np.arange(0.05,3,0.05) #计算对应的Y值 y1 = [math.log(a,1.5) for a in x] #作图...原创 2018-11-22 22:56:16 · 6675 阅读 · 0 评论 -
数据可视化--世界幸福指数报告
世界幸福指数报告可视化数据集描述Kaggle提供的数据集包括2015、2016、2017的报告。每年的报告的形式为CSV文件:2015.csv, 2016.csv。由于2017报告的格式与之前两年的不同,本次项目中只对2015和2016年的报告进行分析。数据详细情况Country: 国家名称,字符串Region: 所属区域,字符串Happiness Rank: 排名,整型Happi...原创 2018-11-28 22:10:44 · 9949 阅读 · 2 评论 -
python数据分析之你不知道的bra
详细图片展示请点击https://zhuanlan.zhihu.com/p/43373383曾经,我把目光放在你身体上四分位的地方,发现了世界的美好。。。之后,山水流转,时光荏苒,不再从前。。。此一文,献给过往。先上张图:好奇怪,为什么是这么个比例[皱眉]这篇文章分为两个部分,python爬虫和数据分析。爬取京东bra一些数据,并进行分析,在上帝视角看一看bra的秘密。...原创 2018-11-30 16:59:23 · 547 阅读 · 0 评论 -
Find_S算法实现
FIND_S算法逻辑展示代码展示:def find_s(): #实例集合 x1 = ['sunny', 'warm', 'nurmal', 'strong', 'warm', 'same' ,1] x2 = ['sunny', 'warm', 'high', 'strong', 'warm', 'same' , 1] x3 = ['rainy', 'cold', 'high', '...原创 2018-12-14 11:03:52 · 2518 阅读 · 0 评论