爬虫
涤生(bluez)
数据科学家=程序猿+艺术家+会讲故事的人+统计学家
展开
-
校花爬虫
import requestsfrom bs4 import BeautifulSoupprint('导包成功')导包成功# ctrl+/ 注释当前代码快捷键# 爬取的网址url='http://www.xiaohuar.com/'# 定制头部信息 指定用户代理header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64)...原创 2018-11-21 18:29:00 · 3222 阅读 · 0 评论 -
大众点评爬虫
## 大众点评评论爬虫脚本使用指南### 爬取前的准备- mysql数据库安装、打开服务- 修改mysqls.py程序中数据库的用户名密码等,并创建对应的database和table,可以使用mysqls.creat_table()函数- 登录大众点评官网,通过谷歌开发者工具等获取到当前的cookie,修改main.py中的cookie变量- 查看爬取的店铺的店铺ID以及评论的页数,...原创 2019-04-30 11:18:44 · 15418 阅读 · 0 评论 -
交通运输数据采集+数据清洗与分析+数据可视化
1.需求:1.1 数据采集一、 数据源 1 1(交通运输)航空出行由于它的快捷便利,已经被越来越多的人喜欢,某航空公司通过多年运营,积累了大量会员档案和乘坐航班信息,为对客户进行分群,明确价值客户群体,将有限的营销资源集中于高价值客户,实现企业利润最大化。为此,该航空公司聘请“H3CU”大数据分析公司完成此项目。由于会员信息属于公司机密数据,该航空公司将数据脱敏后以 csv 文件...原创 2019-05-27 10:02:20 · 9185 阅读 · 12 评论 -
招聘数据采集+数据清洗与分析+数据可视化
1.需求:1.1 数据采集1、 网站解析,利用 chrome 查看网页源码,分析招聘网站网页结构。1) “检查”招聘网站,在网页中右键点击检查,或者 F12 快捷键,进入如下图的查看元素页面;(示例图 1)2) 检查网站:点击 Network、勾选 Preserve log、点击 Doc、点击清理按钮、刷新页面、点击 Response,在 Response 查看所需内容。(...原创 2019-05-27 10:23:13 · 9601 阅读 · 5 评论 -
抓取GDP数据
http://data.stats.gov.cn/ks.htm?cn=C01[外链图片转存失败(img-nrHOoQLV-1562729428899)(中国统计网-GDP.png)]import requestsfrom bs4 import BeautifulSoupurl = 'http://data.stats.gov.cn/ks.htm'post_data = {"dbcode...原创 2019-07-10 11:30:44 · 1009 阅读 · 0 评论