![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
mini猿要成长QAQ
一步一步脚印,踏踏实实向前~~~
展开
-
DC学院数据分析师(入门)学习笔记----高级爬虫技巧
对于网站来说,实际上是不愿意让大家去爬取它的内容的,因为爬虫可能会对真实的用户带来不太好的影响(很多网站会限制流量,尤其是对爬虫产生的流量,会对服务器带来一定的压力)。所以网站会对爬虫有一定的抵制,如果不注意爬虫的技巧,有可能就被网站封杀IP,以致暂停了。 那么如何能够轻松绕过部分的反爬虫限制,书写我们的爬虫呢?? 1.设定程序休止时间原创 2017-09-07 10:46:30 · 6989 阅读 · 0 评论 -
DC学院数据分析师(入门)学习笔记----基于网页抓取天气数据demo以及基于网页抓取《摔跤吧!爸爸》豆瓣评分
课程示例的旧金山天气页面地址为:http://forecast.weather.gov/MapClick.php?lat=37.77492773500046&lon=-122.41941932299972#.WUnSFhN95E4 在火狐浏览器中提供了非常方便的网页代码查看器(其他浏览器可自行百度): 这样我们可以很快速地知道我们想获取的信息在htm原创 2017-09-06 16:55:20 · 534 阅读 · 0 评论 -
DC学院数据分析师(入门)学习笔记----基于网站API抓取《摔跤吧!爸爸》的豆瓣评分情况
前几天在某公众号上看到了对《战狼2》的数据分析,涉及人群,观看时间,影评,地点等等,分析的超级棒,所以就想着数据分析是一件很有说话权的事情。作为这方面的小白,决定抽时间学习一番。于是乎,通过博客来记录一下自己的学习路程。 其实就是跟着网课的操作笔记 这次是基于网站API抓取《摔跤吧!爸爸》的豆瓣评分情况 首先,我们需要了解豆瓣API的说明。豆瓣API说明:ht原创 2017-09-06 11:33:45 · 1282 阅读 · 0 评论 -
DC学院数据分析师(入门)学习笔记----利用python操作MySQL数据库
安装pymysql原理介绍:使用pymysql指令来连接数据库host:要连接的数据库的IP地址,如果是远程的,这里指定远程的ip地址user:登录的账户名,如果登录的是最高权限账户则为rootpassword:对应的密码db:要连接的数据库的名称,如需要访问存储的IRIS数据库,则输入'IRIS'charset:设置编码格式,如utf8原创 2017-09-08 11:57:47 · 2764 阅读 · 3 评论 -
XGBoost资料( 多届竞赛冠军获得者 周耀 整理)
XGBoost原理《xgboost导读和实战》《Introduction to Boosted Trees》自定义目标函数机器学习算法中GBDT和XGBOOST的区别有哪些?DARTXGBoost: Reliable Large-scale Tree Boosting SystemXGBoost: A Scalable Tree Boosting Systemxgboost参数介绍xg转载 2017-09-12 17:19:21 · 776 阅读 · 0 评论 -
python爬取网易云音乐薛之谦歌词数据,生成词云
老薛最近频频上热搜,因为老薛的歌大部分是自己作词,所以感觉他的歌词和他应该有某种情感表达和联系吧。于是用python爬了网易云音乐中老薛的歌词数据,并简单用wordcloud写了个词云统计。难过,害怕,离开,分开,爱情,思念等词出现频繁,希望如作词所写,是个真真实实重感情的人吧。(应该扣个图的,词云显示的不像老薛的照片....)先上个词云图吧,以后如果有需要,再写详细的代码解释。原创 2017-09-14 15:34:11 · 4461 阅读 · 2 评论