初学python爬虫,仅用学到的几个库尝试爬取网贷之家的平台信息数据,并保存到excel中。
爬取的过程中遇到了各种各样的问题,通过各种查资料最终解决,但是感觉自己的代码不够简洁,可能是学的东西还是太少吧。
要爬取的页面:https://www.wdzj.com/dangan/
要爬取的数据:平台名称、评级、参考利率、待还余额、注册地、上线时间、网友印象、综合评分
代码如下:
import requests
import pandas as pd
import time
from lxml import etree
from fake_useragent import UserAgent
headers ={'Cookie':'scrolltop=552; __jsluid=f5d2368b87c3beabdb0c1099f713f1fa; gr_user_id=a8f3d551-d6ad-44f7-8f83-37a503283b0d; tp_sid=ca92258bad801b1c; _ga=GA1.2.291064707.1548835781; NTKF_T2D_CLIENTID=guestE792E029-8509-4B85-3AFC-FFA3B934E6B8; _gid=GA1.2.1800137819.1552456081; advidadcolumn47=0; wdzj_session_source=https%253A%252F%252Fwww.wdzj.com%252F; WDZJptlbs=1; PHPSESSID=4obamvmbpkj4eotcm2rnlcpda6; Hm_lvt_9e837711961994d9830dcd3f4