首先天天基金robots.txt内容如下
User-agent: *
Disallow: /*spm=*
Disallow: /*aladin
表示不限制爬虫方式,不能爬取根目录下包含字符串'spm='的文件和根目录下'aladin'结尾的文件
主要URL
- 公司列表:http://fund.eastmoney.com/js/jjjz_gs.js
- 基金列表:http://fund.eastmoney.com/js/fundcode_search.js
- 基金信息1:http://fund.eastmoney.com/pingzhongdata/'+code+'.js‘ 其中,code为6位整数,如000001的URL位=为http://fund.eastmoney.com/pingzhongdata/000001.js
- 基金信息2:http://fund.eastmoney.com/f10/tsdata_'+code+'.html',同上
- 基金经理