如何爬取了知乎用户信息,并做了简单的分析

转载请标明出处:
http://blog.csdn.net/forezp/article/details/68951699
本文出自方志朋的博客

一、使用的技术栈:

  • 爬虫:python27 +requests+json+bs4+time
  • 分析工具: ELK套件
  • 开发工具:pycharm

二、数据成果

三、简单的可视化分析

1.性别分布

  • 0 绿色代表的是男性 ^ . ^
  • 1 代表的是女性
  • -1 性别不确定

可见知乎的用户男性颇多。

在这里插入图片描述

2.粉丝最多的top30

粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。

在这里插入图片描述

3.写文章最多的top30
在这里插入图片描述

四、爬虫架构

爬虫架构图如下:
在这里插入图片描述

说明:

  • 选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。
  • 抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。
  • 解析该用户的个人信息,并存取到本地磁盘。
  • logstash取实时的获取本地磁盘的用户数据,并给elsticsearch
  • kibana和elasticsearch配合,将数据转换成用户友好的可视化图形。
五.编码

爬取一个url:

def download(url):
    if url is None:
        return None
    try:
        response = requests.get(url, headers={
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
            'authorization': 'your authorization '
        })
        print (response.content)
        if (response.status_code == 200):
            return response.content
        return None
    except:
        return None

解析内容:

def parse(response):
    try:
        print (response)
        json_body = json.loads(response);
        json_data = json_body['data']
        for item in json_data:
            if (not old_url_tokens.__contains__(item['url_token'])):
                if(new_url_tokens.__len__()<2000):
                   new_url_tokens.add(item['url_token'])
            if (not saved_users_set.__contains__(item['url_token'])):
                jj=json.dumps(item)
                save(item['url_token'],jj )
                saved_users_set.add(item['url_token'])

        if (not json_body['paging']['is_end']):
            next_url = json_body['paging']['next']
            response2 = download(next_url)
            parse(response2)

    except:
        print ('parse fail')

存本地文件:

def save(url_token, strs):
    f = file("\\Users\\forezp\\Downloads\\zhihu\\user_" + url_token + ".txt", "w+")
    f.writelines(strs)
    f.close()

代码说明:

  • 需要修改获取requests请求头的authorization。
  • 需要修改你的文件存储路径。

源码下载:点击这里,记得star哦!

六.如何获取authorization

  • 打开chorme,打开https://www.zhihu.com/,
  • 登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)
  • 点击关注,刷新页面,见图:

在这里插入图片描述

七、可改进的地方

  • 可增加线程池,提高爬虫效率
  • 存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。
  • 存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。
  • 对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。

八.关于ELK套件

关于elk的套件安装就不讨论了,具体见官网就行了。网站:https://www.elastic.co/

另外logstash的配置文件如下:


input {
  # For detail config for log4j as input,
  # See: https://www.elastic.co/guide/en/logstash/current/plugins-inputs-log4j.html

    file {
        path => "/Users/forezp/Downloads/zhihu/*"
    }


}
filter {
  #Only matched data are send to output.
}
output {
  # For detail config for elasticsearch as output,
  # See: https://www.elastic.co/guide/en/logstash/current/plugins-outputs-elasticsearch.html
 elasticsearch {
    action => "index"          #The operation on ES
    hosts  => "localhost:9200"   #ElasticSearch host, can be array.
    index  => "zhihu"         #The index to write data to.
  }
}

九、结语

从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。最后,本文仅用作交流学习。如果知乎告知我侵权,我会立刻删除本文。


扫码关注公众号有惊喜

(转载本站文章请注明作者和出处 方志朋的博客

Python 模拟爬虫抓取知乎用户信息以及人际拓扑关系,使用scrapy爬虫框架,数据存储使用mongo数据库。   本地运行请注意:爬虫依赖mongo和rabbitmq,因此这两个服务必须正常运行和配置。为了加快下载效率,图片下载是异步任务,因此在启动爬虫进程执行需要启动异步worker,启动方式是进入zhihu_spider/zhihu目录后执行下面命令:   celery -A zhihu.tools.async worker --loglevel=info   爬虫项目部署:   进入zhihu_spider后执行```docker-compose up``` ,进入container后和本地运行方法相同,依次启动mongo、rabbitmq、异步任务、爬虫进程即可。   其它需要说明的问题:   爬虫框架从start\_requests开始执行,此部分会提交知乎主页的访问请求给引擎,并设置回调函数为post_login.   post\_login解析主页获取\_xsrf保存为成员变量中,并提交登陆的POST请求,设置回调函数为after\_login.   after\_login拿到登陆后的cookie,提交一个start\_url的GET请求给爬虫引擎,设置回调函数parse\_people.   parse\_people解析个人主页,一次提交关注人和粉丝列表页面到爬虫引擎,回调函数是parse\_follow, 并把解析好的个人数据提交爬虫引擎写入mongo。   parse\_follow会解析用户列表,同时把动态的人员列表POST请求发送只引擎,回调函数是parse\_post\_follow,把解析好的用户主页链接请求也发送到引擎,人员关系写入mongo。   parse\_post\_follow单纯解析用户列表,提交用户主页请求至引擎。
要使用Python爬取知乎用户信息,你可以按照以下步骤进行操作: 1. 安装必要的库:使用`pip`命令安装`requests`和`beautifulsoup4`库。 2. 发送请求获取页面:使用`requests`库发送HTTP请求,获取知乎用户信息页面的HTML内容。 3. 解析页面内容:使用`beautifulsoup4`库解析页面内容,提取所需的用户信息。 下面是一个简单的示例代码,展示如何爬取知乎用户信息: ```python import requests from bs4 import BeautifulSoup def get_user_info(user_url): # 发送请求获取页面内容 response = requests.get(user_url) html_content = response.text # 解析页面内容 soup = BeautifulSoup(html_content, 'html.parser') user_name = soup.select_one('.ProfileHeader-name').text.strip() user_bio = soup.select_one('.ProfileHeader-headline').text.strip() user_location = soup.select_one('.ProfileHeader-infoItem.ProfileHeader-location').text.strip() # 返回用户信息 return { 'name': user_name, 'bio': user_bio, 'location': user_location } # 示例:爬取知乎用户「知乎小助手」的信息 user_url = 'https://www.zhihu.com/people/zhihuassistant' user_info = get_user_info(user_url) print(user_info) ``` 请注意,该示例仅爬取了用户的名称、个人简介和所在地信息。你可以根据自己的需求修改代码,提取其他感兴趣的用户信息。此外,为了遵守网站的使用规则,请确保在爬取数据时尊重知乎的限制,并遵守相关的法律法规。
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值