python小爬虫，爬取文章（知乎专栏）片段

最新推荐文章于 2024-07-10 15:06:18 发布

mao_mao37

最新推荐文章于 2024-07-10 15:06:18 发布

阅读量569

点赞数

分类专栏： python scrapy

本文链接：https://blog.csdn.net/mao_mao37/article/details/107387035

版权

本文介绍了使用Python进行网络爬虫的实践经验，分别展示了如何爬取知乎专栏的内容和普通小说网站的数据，涵盖了网页数据的抓取与解析技巧。

摘要由CSDN通过智能技术生成

爬取知乎专栏

#爬取知乎专栏

class XSSpider(scrapy.Spider):
    name = 'xiaoshuo'
    allowed_domains = ['zhihu.com']
    start_urls = ['https://www.zhihu.com/api/v4/columns/c_1059416559054893056/items?limit=10&offset=0']

    def parse(self, response):
        obj = json.loads(response.text)
        icount=0
        for p_item in obj['data']:
            icount = icount + 1
            p_content = get_html_of_response(p_item['url'])
            p_selector = etree.HTML(p_content.text)
            sid = re.sub(".+/p/","",p_item['url'])
            content_json = json.loads(p_selector.xpath("//script[@id='js-initialData']/text()")[0])
            txt = ""
            i_title = content_json['initialState']['entities']['articles'][sid]['title']
            txt =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mao_mao37

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python小爬虫，爬取文章（知乎专栏）片段

class XSSpider(scrapy.Spider): name = 'xiaoshuo' allowed_domains = ['2mcn.com'] start_urls = ['https://www.2mcn.com/html/book/73323/73323986/49627483.html'] def parse(self, response): txt = "" i_title = response.xpath("//h.
复制链接

扫一扫