![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
sunnychou0330
这个作者很懒,什么都没留下…
展开
-
大鹏教你数据分析系列--运动员身材都是完美的吗
本博客记录学习数据分析的思考和心得本博客会分享数据源码,以及在学习数据分析过程中,学习到的内容和本人不熟悉的地方本节主要研究运动员身材都是完美型吗?对于平时有健身的朋友们应该知道,衡量一个人身材是否完美有一个公式,即是BMI值那么如何判断自己的身材是否完美尼,来一起计算一下自己的BMI值把!向完美身材看齐!BMI =体重/身高的平方(体重单位是KG,身高单位是米)本次主...原创 2019-04-18 17:27:26 · 730 阅读 · 4 评论 -
大鹏教你数据分析系列--身高越高越容易参加运动会吗
本博客记录学习数据分析的思考和心得本博客会分享数据源码,以及在学习数据分析过程中,学习到的内容和本人不熟悉的地方本节主要研究运动员身高,看参加奥运会的运动员身高有没有独特的优势? 下图是本篇博客最终完成的目标,横抽是运动员的身高,两条曲线分别表示的是男女运动员的差异,中间的两条竖线表示的是男女运动员身高的平均值,下面的小竖线表示的是每一个运动员的身高分布。本次代...原创 2019-04-18 16:11:14 · 449 阅读 · 1 评论 -
python3 matplotlib画图乱码问题
matplotlib.pyplot在显示时出现无法正确显示,显示为框框。主要是该库找不到合适的字体,默认的使用的字体里没有中文,要在有中文的地方加上中文相关的字体,不然会因为没有字体显示成框。import matplotlibmyfont = matplotlib.font_manager.FontProperties(fname='C:\Windows\Fonts\simsun.t...原创 2019-04-22 20:14:41 · 251 阅读 · 0 评论 -
正则表达式提取新闻发生时间
最近在提取新闻事件的发生时间,现在只是实现了一个最简单的新闻,获取新闻报到时间和正文的时间。方案:把正文中出现的第一个时间作为事情的发生时间,并按照统一的格式进行输出xxxx-xx-xx 某年某月某日这种格式。 在新闻中,由于每一个网站发布方不同,会存在报到时间不一致,以及正文内容格式不一致,在这个时候,我们需要考虑各种情况,但在此处,我们考虑的较简单,后面会在继续优化这个格式的提原创 2017-09-12 10:46:26 · 2691 阅读 · 0 评论 -
ValueError: too many values to unpack (expected 2)
a = {'Time': '2017-09-19', 'News': '楚了何人之手。今日,楚天都市报'}for k,v in a: print('%s %s'%(k,v))返回了下面的错误:ValueError Traceback (most recent call last)<ipython-input-12-549d98原创 2017-09-20 12:49:29 · 95760 阅读 · 0 评论 -
Sort 函数,python
1,sorted改变原序列,sort不改变原序列的排序 使用sort和sorted关键操作,前者改变原数组,后者不改变原数组 改变原数组操作,一种是直接赋值给一个新的变量,如下 方式1:x =[4, 6, 2, 1, 7, 9]y = x[ : ]y.sort()print(y)#[1, 2, 4, 6, 7, 9]print(x) #[4, 6, 2, 1, 7, 9]方式2 x原创 2017-09-12 10:19:23 · 3032 阅读 · 0 评论 -
处理淘宝双11数据,使用pandas库快速切分海量csv文件
我们都知道,pandas库可以快速的处理海量数据,对于这样的大数据一般的文本编辑器,都会卡到爆,然而pandas轻松解决import pandas as pdchunks = pd.read_csv(r'C:\Users\zss0330816\Desktop\user_log.csv',iterator = True)#nrows 指定读取文件的行数chunk = chunks.get_chunk原创 2017-08-02 16:01:59 · 1373 阅读 · 0 评论 -
爬虫编码问题
在获取网页时会遇到各种各样的编码问题,我们有不同的编码方式,但是在使用BeautifulSoup时,他有自动检测编码的功能,但是这样遍历一遍,知道编码也是一个很慢的过程。而且依然有可能出错。因此我们可以在实例化BeautifulSoup时,加上编码规则,这样就可避免错误。 首先我们先查看爬虫的页面的编码方式,使用下列代码即可获得url = 'http://www.baidu.com'>>> re原创 2017-08-01 20:56:35 · 413 阅读 · 0 评论