爬虫
蛋挞Dawn
一个不甘于敲代码的程序媛
展开
-
python爬虫1
ywchiu.com 大数学堂 非结构化数据:没有固定的数据格式;必须透过ETL(extract transformation loading)工具将数据转换为结构化数据才能取用 数据抽取、转换、储存 透过pip安装套件: pip install requests pip install BeautifulSoup4 python安装网址:https://www....原创 2018-09-27 10:57:39 · 133 阅读 · 0 评论 -
Python爬虫2
新浪网页爬虫 import requests res=requests.get('https://www.sina.com.cn/') res.encoding='utf-8' soup=BeatifulSoup(res.text,'html.parser') for news in soup.select('.rec-list-i'): if(len(news.sele...原创 2018-09-27 16:08:33 · 284 阅读 · 0 评论 -
python3爬虫
pip list可以看到安装的哪些包 第一步:什么都没有返回 第二步:加上headers的关键信息 返回了一部分ul 但是没有返回其中的 li 第三步:是异步加载 看network--xhr中信息 ,看到了Li中的数据,添加3个头部信息‘x-’ 第四步:找到了数据,都是假的。把get--post,添加data信息,first,pn,kd import requests fro...原创 2018-09-27 18:10:27 · 213 阅读 · 0 评论 -
python4爬虫
url: 协议+路径+参数 schema://path?query 麦子学院 http://www.maiziedu.com/wiki/crawler/protocol/ py2 与py3的区别:https://www.cnblogs.com/lucas0625/p/7825849.html 斗图网表情url链接 import requests import ...原创 2018-09-28 11:04:56 · 207 阅读 · 0 评论