一个简单的python爬虫程序+分词+标签云

最新推荐文章于 2024-01-21 14:21:09 发布

akubaba

最新推荐文章于 2024-01-21 14:21:09 发布

阅读量1k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/xx_xxxxxxxxxx1120/article/details/71153560

版权

本文介绍了使用Python进行简单的网页爬虫，通过requests和pyquery库抓取博客标题，然后利用结巴分词进行文本处理，去除停用词并计算词频，最终在线生成词云的全过程。

摘要由CSDN通过智能技术生成

最近看到一篇推文，作者自己爬了自己的博客并做出了标签云。下面用我自己的方法来爬那位博主的博客（没办法，我的博客没什么价值，推荐大家可以关注他—下面有他的博客链接！）。

首先，调包，我用requests包爬取html，用pyquery与正则表达式结合匹配数据。

# -*- coding: utf-8 -*-
import requests
import time
from pyquery import PyQuery as pq
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

获取网页html方法：

def get_html(url):
    headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}#使用浏览器查看自己的user-agent
    try:
        w = requests.get(url, headers=headers,timeout = 10)
        html = w.text
    except:   #下面是应付反爬
        time.sleep(5)
        for i in range(3):
            try:
                w = requests.get(url, headers=headers,timeout = 10)