python爬虫之数据解析操作

最新推荐文章于 2024-08-15 01:55:01 发布

杂记铺

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量548

点赞数 12

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55829395/article/details/140104090

版权

python爬虫之scrapy数据解析操作

scrapy数据解析操作：利用scrapy爬取段子标题和内容
终端输入：
1、scrapy startproject qiushiPro创建爬虫文件夹
2、cd qiushiPro进入qiushiPro文件夹
3、scrapy genspider qiushi www.xxx.com创建爬虫代码qiushi.py
4、进入qiushi.py，修改如下：

import scrapy


class QiushiSpider(scrapy.Spider):
    name = "qiushi"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["https://www.qiushile.com/duanzi/"]

    def parse(self, response):
        #解析：段子标题+段子内容
        li_list = response.xpath('//*[@id="ct"]/div[1]/div[2]/ul')
        for li in li_list:
            #xpath返回的是列表，但是列表元素一定是Selector类型的对象
            #extract可以将Selector对象中data参数存储的字符串提取出来
            # title = li.xpath('./li/div[2]/div[1]/a/text()')[0].extract()
            title = li.xpath('./li/div[2]/div[1]/a/text()').extract_first()
            #列表调用了extract之后，则表示将列表中每一个Selector对象中data对应的字符串提取了出来
            content = li.xpath('./li/div[2]/div[2]//text()')[0].extract()


            print(title,content)

            break

5、settings.py配置文件中修改ROBOTSTXT_OBEY，添加LOG_LEVEL、USER_AGENT。

#显示指定类型的日志信息
LOG_LEVEL = "ERROR"

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76"

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

6、终端输入：scrapy crawl qiushi执行程序

关注

12
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之数据解析操作

python爬虫之数据解析操作
复制链接

扫一扫

杂记铺 CSDN认证博客专家 CSDN认证企业博客

码龄3年

31: 原创

52万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

697: 积分

305: 粉丝

382: 获赞

3: 评论

64: 收藏

私信

关注

热门文章

最新评论

python爬虫实战之豆瓣电影爬取
CSDN-Ada助手: 恭喜你成功发布了第6篇博客，“python爬虫实战之豆瓣电影爬取”！看到你持续不断地分享实战经验，真的很让人佩服。接下来，希望你可以继续保持热情，多尝试一些新的爬虫项目，拓展自己的技术范围，相信你一定会有更多精彩的创作！加油！
python爬虫之post请求ajax数据
CSDN-Ada助手: 恭喜用户在博客中分享了关于python爬虫中post请求ajax数据的内容，这对于学习爬虫的朋友们来说一定是一篇很有用的文章！希望用户能继续保持创作的热情，不断分享更多有价值的内容。下一步建议可以尝试深入探讨不同网站的反爬机制以及如何应对，或者分享一些高级爬虫技巧，相信会有更多人受益的！期待用户更多精彩的博客！
python爬虫request第一例
CSDN-Ada助手: 恭喜您写下了第三篇博客“python爬虫request第一例”！坚持不懈地创作，您的努力得到了回报。接下来，或许您可以尝试深入探讨爬虫技术的其他方面，比如数据清洗、数据分析等，这样可以为您的读者提供更多有价值的内容。期待您的下一篇作品！继续加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。