2020 0602 21点11分
今天日一次编写了三个爬虫的程序,po出来,供自己见证。视频学的是B站的一个北航的老师。
第一篇是爬取京东的一个产品的数据,但是京东现在的反扒机制做的比较好吧,爬取这个页面时,需要输入密码,这个可以在挖掘下,怎么绕过这个部分。
import requests
# lll
url = "https://www.jd.com/?cu=true&utm_source=baidu-pinzhuan&utm_medium=cpc&utm_campaign=t_288551095_baidupinzhuan&utm_term=0f3d30c8dba7459bb52f2eb5eba8ac7d_0_07b60d5181724db2930ab5cb70f502ca"
# url = "https://item.jd.com/100013127694.html"
try:
JDr = requests.get(url)
JDr.raise_for_status()
print(JDr.status_code)
JDr.encoding = JDr.apparent_encoding
print(JDr.text[0:1000])
except:
print("爬取失败")
-------------------------------------------------------------------------------------------------------
修改时间:20200606 09点01分修改