[原创][爬虫学习·一]爬取天天基金网的基金收益排行信息
最近在学习爬虫,实验了几个简单的小demo,记录一二。
首先我们打开天天基金网的基金收益排行页面,了解一下要爬取的页面,网址和截图如下:
http://fund.eastmoney.com/trade/hh.html?spm=001.1.swh#zwf_,sc_1n,st_desc
![](https://i-blog.csdnimg.cn/blog_migrate/492ae38c430697c24f923be039963d2a.png)
现在要爬取该页面下所有基金的代码、名称、日增长率、近一周和近一月的增长率(也就是红框内的内容),并保存在Excel文件中。思路如下,
(1)设置Excel文件的格式。
1)引入xlwt工具
import xlwt
2)添加FundSheet页,并设置Excel文件的表头,用的是worksheet.write(row,col,label)方法,row为excel表的行,col为列,label是表格内容。
workbook = xlwt.Workbook(encoding ='utf-8')
worksheet = workbook.add_sheet('FundSheet')
worksheet.write(0, 0, label='基金代码')
worksheet.write(0, 1, label='基金名称')
worksheet.write(0, 2, label='日增长率')
worksheet.write(0, 3, label='周增长率')
worksheet.write(0, 4, label='月增长率')
这几行代码的设置效果如下:
![](https://i-blog.csdnimg.cn/blog_migrate/7e4140c201d7627039d73dc19c203643.png)
(2)分析页面和爬取网站内容。
选取Selenium爬取工具,模拟浏览器对该网址发出请求。如果没有安装该工具,通过在cmd中执行