爬虫
xiangzilong
这个作者很懒,什么都没留下…
展开
-
py 爬虫,xpath
'''-环境安装: pip install lxml-xpath 表达式 / : 表示的是从根节点开始定位,表示的是一个层级 // :表示的是多个层级,可以表示从任意位置开始定位 属性定位: //div[@class='song'] tag[@attrName="attrValue"] 索引定位: //div[@class='song']/p[3] 索引是从1开始的 取文本: /text() 获取的是标签中直系的文本内容 .原创 2020-12-16 16:42:31 · 87 阅读 · 0 评论 -
py 爬虫正则,糗图图片爬取
'''聚焦爬虫: 爬取页面中指定的页面内容 - 指定url -发起请求 -获取响应数据 - 数据解析 (对标签的数据值进行提取) -持久化储存''''''数据解析分类: -正则 -bs4 -xpath '''# 爬取糗事百科中糗图板块下所有的糗图图片import requestsimport reimport osif __name__ == '__main__': # UA 伪装 header.原创 2020-12-15 15:55:46 · 182 阅读 · 2 评论 -
py 爬虫,爬取药监总局相关数据
import requestsimport jsonif __name__ == '__main__': url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList' # UA 伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K.原创 2020-12-15 09:49:22 · 559 阅读 · 1 评论 -
py 爬虫,爬取豆瓣排行榜电影
import requestsimport jsonif __name__ == '__main__': url = 'https://movie.douban.com/j/chart/top_list' # url = 'https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start=20&limit=20' param = { .原创 2020-12-14 21:25:31 · 352 阅读 · 0 评论 -
py 爬虫,爬取肯德基餐厅位置
import requestsif __name__ == '__main__': url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword' # UA 伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chro.原创 2020-12-14 21:44:20 · 598 阅读 · 0 评论