爬虫小案例爬取笑话 xpath

最新推荐文章于 2024-01-20 15:00:25 发布

听酒an

最新推荐文章于 2024-01-20 15:00:25 发布

阅读量577

点赞数

分类专栏：爬虫文章标签： xpath 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/antian1991/article/details/81140994

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

import requests
from lxml import etree


# 写入文件
def write_file(art):
	with open("笑话.txt", "a+", encoding="utf-8") as f:
		f.write(art)


# 解析html得到自己想要的内容
def parse_html(html):
	content = etree.HTML(html)
	a_lists = content.xpath('//div[@class="list_title"]/ul/li/b/a/@href')
	for a in a_lists:
		# # "http://www.jokeji.cn/jokehtml/%E5%86%B7%E7%AC%91%E8%AF%9D/201806212319307.htm"
		url = "http://www.jokeji.cn" + a
		result = requests.get(url)
		# 转化成gb2312编码
		result.encoding = "gb2312"
		result = result.text
		info = etree.HTML(result)
		art_lists = info.xpath('//span[@id="text110"]/p/text()')
		for art in art_lists:
			print(art)
			write_file(art)


def main():
	num = 1
	for i in range(10):
		url = "http://www.jokeji.cn/list_" + str(num) + ".htm"
		num += 1
		headers = {
			"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
		}
		html = requests.get(url, headers=headers)
		# 如果不知道是什么编码 此时可以print(html.encoding)查看一下是什么编码
		html.encoding = "gb2312"
		html = html.text
		parse_html(html)


if __name__ == '__main__':
	main()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

听酒an CSDN认证博客专家 CSDN认证企业博客

码龄6年

32: 原创

32万+: 周排名

138万+: 总排名

3万+: 访问

: 等级

664: 积分

18: 粉丝

15: 获赞

9: 评论

47: 收藏

私信

关注

热门文章

分类专栏

数据库 6篇
django 11篇
git 1篇
爬虫 5篇
Scrapy 1篇

最新评论

Django 中配置图片显示三大步
Tisfy: 十分完美，正如：长恨此身非我有，何时忘却营营。
Scrapy简单入门整理+小案例
一阿朽: 网站不能爬了 Position.py文件中换个网站抓取就可以了 [code=python] import scrapy from recruit.items import PositionItem class PositionSpider(scrapy.Spider): name = 'Position' allowed_domains = ['www.itcast.cn'] start_urls = ["http://www.itcast.cn/channel/teacher.shtml#aui"] def parse(self, response): position_lists = response.xpath('//div[@class="li_txt"]') for postion in position_lists: item = PositionItem() position_name = postion.xpath('./h3/text()').extract() position_link = postion.xpath('./h4/text()').extract() position_type = postion.xpath('./p/text()').extract() people_num = postion.xpath('./h3/text()').extract() work_address = postion.xpath('./h4/text()').extract() publish_time = postion.xpath('./p/text()').extract() item["position_name"] = position_name item["position_link"] = position_link item["position_type"] = position_type [/code]
安装mongodb
杨晓尚: 感谢分享！！！！！！！！
Scrapy简单入门整理+小案例
WindSearcher: 这个应该不能爬了吧
Scrapy简单入门整理+小案例
kerwinZi8A6: 分页处理的第二个Position.py 代码最后去掉pipeline

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。