爬虫
甘甘甘甘甘甘甘
码不停题
展开
-
利用requests,urllib和正则表达式简单爬取贴吧图片
requests和urllib简单爬贴吧图片 1. requests请求网页 2. 利用正则匹配在响应网页的文本内容中捕捉图片的url列表 3. 利用urllib以及获得的url列表下载图片 import re import os # 创建保存路径 import requests from urllib import request if __name__ == '__main__': ...原创 2019-06-23 17:14:03 · 478 阅读 · 0 评论 -
lxml和BeautifulSoup爬取豆瓣音乐排行榜
BeatifulSoup 请求响应 根据响应的html页面二进制流建立BeautifulSoup的解析对象 结合CSS选择器提取目标内容 提取标签属性值:Tag.get();获取标签内文:Tag.string select()返回的是Tag列表 lxml 请求响应 根据响应的html文本建立解析对象 结合Xpath提取目标内容(部分数据要去除无用字符) Xpath路径表达式 ...原创 2019-06-30 22:39:50 · 381 阅读 · 0 评论