![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python3
文章平均质量分 59
茄汁蔬菜
这个作者很懒,什么都没留下…
展开
-
尝试先爬取新闻链接,然后爬取链接后的正文
from lxml import html import requests from pyquery import PyQuery as pq from urllib.parse import urljoin import time from threading import Thread # 获取全部页的网址 def all_url(url): page = 1 while page <= 50: urls = r"https://3g.163.com/touc.原创 2021-07-28 09:47:38 · 871 阅读 · 0 评论 -
python3爬取网页数据学习笔记——XPath篇
数据来源网站:2016中国企业500强排行榜(完整名单)→买购网 (maigoo.com) 右键数据部分,选择检查 观察到需要的数据的父节点包含关键字'mod_table table1 fcolor30',而子节点中包含了'td'的项都是要爬取的内容,故可得出XPath路径表达式为: //table[contains(@class, 'mod_table table1')]//td/text()" 完整代码: import requests from lxml import htm原创 2021-07-15 08:57:28 · 552 阅读 · 0 评论