- 博客(4)
- 收藏
- 关注
原创 Python高阶爬虫实战分析
常见的反爬技术,楼主知道的有上面所述的分析请求,还有验证码技术。说爬虫一定要先说爬取内容的方法,python有这么几个支持爬虫的库,一个是urllib和它的后续版本库,这个库做爬取的时候生成的中继对象是比较多的,楼主也记不大住都有什么,而且这个库的使用在楼主看来有些过时了。如果网页地址有规律,那么构造url用个循环函数就好,对于网页地址中包含随机码的时候,通常就是先爬取根页面,获取到所有想爬取的子页面url,把这些url放进一个url池(项目小是一维的列表,项目大的时候可能会是高维的列表)里,循环爬取。
2024-01-25 18:16:26
1904
原创 python爬取天气数据的实例详解
div_tatall = soup.find("div",class_="conMidtab") #find() 找符合要求的第一个元素。tables = div_tatall.find_all("table") #find_all() 找到符合要求的所有元素的列表。inf = day.find_all('p') # 遍历li下面的p标签 有多个p需要使用find_all 而不是find。temhigh = inf[1].find('span').string # 最高气温。
2024-01-15 12:59:47
1320
1
原创 Python爬虫案例之爬取二手房源数据
house_area = selector.css('.content li:nth-child(3)::text').get().replace('㎡', '') # 面积。sub_info = selector.css('.type .subInfo::text').get().split('/')[-1] # 装修。date = selector.css('.area .subInfo::text').get().replace('年建', '') # 年份。
2024-01-14 18:12:52
1687
1
原创 用python语言爬取虎牙美女主播封面
创建一个变量来存放requests.get 获取的文本 ,并解析html网页。print("成功"%name)我们需要先建立网页链接,导入模块库。获取图片练级,大图链接,图片名字。保存图片地址,使用绝对路径。
2024-01-13 19:41:25
504
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人