爬虫
繁华里流浪
这个作者很懒,什么都没留下…
展开
-
Task2-爬虫-xpath实践丁香园评论
参加了 DataWhale 的活动,学习实践并作笔记已加深理解 实践 -丁香园评论 构建解析 tree # 导入库 from lxml import etree import requests proxies = {'http': "socks5://127.0.0.1:7891/", 'https': "socks5://127.0.0.1:7891/",} ur...原创 2020-04-22 21:17:56 · 249 阅读 · 0 评论 -
Task2-爬虫-Beautiful soup实践中国大学排名定向爬取
Task2-爬虫-Beautiful soup实践中国大学排名定向爬取 参加了 DataWhale 的活动,学习实践并作笔记已加深理解 中国大学排名定向爬取 代码如下: 创建 BeautifulSoup 对象 import requests from bs4 import BeautifulSoup proxies = {'http': "socks5://127.0.0.1:7891...原创 2020-04-22 20:32:05 · 231 阅读 · 0 评论 -
Python 爬虫乱码问题
乱码问题 今天学习爬虫的时候遇到乱码问题,借此机会想搞清楚 Python 的乱码,不想跑通就过. r = requests.get('https://www.baidu.com',proxies=proxies) # Demo网址 demo = r.text # 抓取的数据 打印 demo 结果时候发现出现乱码情况: <a href=http://www.baidu.com/duty/&...原创 2020-04-22 15:51:39 · 647 阅读 · 0 评论 -
Task2-爬虫-正则学习与实践(爬取天猫商品名称价格)
爬虫Day2-正则学习与实践 参加了datawhale活动,顺便记录下学习内容 思维导图 实践部分 爬去天猫的商品信息(名称和价格) 总体分为三步骤: 获取 html 文本 get_html_text(url, data): def get_html_text(url, data): try: headers = { 'cookie': '这个...原创 2020-04-21 13:16:58 · 450 阅读 · 0 评论