python 版本 :3.5.2
Jupyter Notebook
使用库:
reuqests (For human)
json (用来加载JSON数据)
datetime (用来记录抓取所花时间,也可以忽略)
pymysql (连接数据库,载入所爬取数据 )
1.用chrome浏览器打开网贷之家官网:http://www.wdzj.com 然后使用Chrome工具审查元素,勾选 Preserve log 然后刷新一次页面
2.找到 http://www.wdzj.com/wdzj/html/json/dangan_search.json 也就是说网贷之家将所收集在档的平台以JSON形式数据储放的,这下就很好办了,直接用抓取这个页面就ok
3.上简单粗暴的代码
1 1 #coding utf-8
2 2 importrequests3 3 importjson4 4 importdatetime5 5 importpymysql6 6 user_agent = 'User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)' #用来伪装用户身份
7 7 headers = {'User-Agent':user_agent}8 8 p2plist_url='http://www.wdzj.com/wdzj/html/json/dangan_search.json' #刚刚找到用来存放平台的JSON数据页面
9 9