weibospider使用记录

小白第一次爬虫,不会专业代码和用语,只记录使用过程。

github网址:dataabc/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据 (github.com)

按readme.md一步步操作

1.安装git

2.git配置

前两步参考了Git(2)-- Git安装后首次配置与第一次使用Git和Github管理自己的代码(超详细纯小白图文教程)_git第一次配置是否成功命令-CSDN博客感谢。

意外输错用户名和密码可以这样改:

git config --global --unset user.name "yourName"
git config --global --unset user.email "your@email.com"

git禁用ctrl C ctrl V,需要右键copy复制和paste粘贴。

3.添加环境变量

电脑搜索框输入【环境变量】,选择【编辑系统环境变量】

选择【环境变量(N)】

选中【path】【编辑】

选择【新建】,复制安装的git文件夹下bin文件夹、cmd文件夹、git-core文件夹路径。

参考了github_weibospider使用报告-CSDN博客

Git的安装教程(完成clone一个项目到本地)_git clone后的项目怎么安装-CSDN博客

感谢

4.clone文件

在本地github仓库里,或者其他想存放爬虫数据的文件夹里右键,win11可能要点击【显示更多选项】,选择【open git bash here】,会自动打开输入框。

我是一行行粘贴和运行的以下代码:

git clone https://github.com/dataabc/weiboSpider.git
cd weiboSpider
pip install -r requirements.txt

然后本地仓库文件夹里会生成【weiboSpider】文件夹

在【weiboSpider】文件夹里,右键选择【open git bash here】

输入了:

python -m weibo_spider

因为我使用Python3没反应。在cmd里运行会报错clone是无效的。所以选择了在git bash里使用这行代码。

运行完成后,【weiboSpider】文件夹里出现config.json。

5.设置爬取用户和方式

用记事本方法打开config.json,按程序设置文档调整你要爬取的用户信息和爬取方式。

注意:设置write_mod时,"csv"是一个含有微博内容转发数点赞数评论数等的csv文件。"txt"也是包含了微博内容转发数点赞数评论数等,"json"中才包含博主的简介性别等博主信息,默认的config.json文件中不含json,想要获取博主个人信息要调整一下。

获取图片和视频的话会很慢。

6.运行

继续在【weiboSpider】文件夹里,右键选择【open git bash here】

输入:

python -m weibo_spider --config_path="config.json"

就开始运行爬虫。等到命令框不再闪动可以键入文字时爬虫完成。

爬虫下来的数据存储在【weiboSpider】文件夹里的【weibo】文件夹中,按照博主昵称分了文件夹。

今天只试了这个,不知道有没有更新的方法,也没有做到爬取评论和关注者、被关注者的效果,也没有对爬取的文本进行分析,下回再说。

只是记录使用过程,也许会有一些错误,见谅。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
首先,你需要安装Scrapy。可以使用以下命令安装: ``` pip install scrapy ``` 接下来,你需要在终端中创建一个Scrapy项目: ``` scrapy startproject weibo ``` 这将创建一个名为“weibo”的文件夹,其中包含Scrapy项目的初始文件。 接下来,你需要定义要爬取的数据。在项目文件夹中,你可以创建一个名为“items.py”的文件,并定义要爬取的数据项。例如,以下是爬取微博的示例: ```python import scrapy class WeiboItem(scrapy.Item): username = scrapy.Field() content = scrapy.Field() time = scrapy.Field() ``` 在这个示例中,我们定义了三个数据项:用户名、内容和时间。 接下来,你需要创建一个爬虫。在项目文件夹中,你可以创建一个名为“spiders”的文件夹,并在其中创建一个名为“weibo_spider.py”的文件。在这个文件中,你可以定义一个Spider类来爬取微博。例如,以下是一个简单的示例: ```python import scrapy from weibo.items import WeiboItem class WeiboSpider(scrapy.Spider): name = "weibo" allowed_domains = ["weibo.com"] start_urls = ["https://weibo.com/"] def parse(self, response): for sel in response.xpath('//div[@class="WB_feed_detail clearfix"]'): item = WeiboItem() item['username'] = sel.xpath('div[@class="WB_info"]/a/text()').extract() item['content'] = sel.xpath('div[@class="WB_text"]/text()').extract() item['time'] = sel.xpath('div[@class="WB_from S_txt2"]/a/@title').extract() yield item ``` 在这个示例中,我们定义了一个名为“WeiboSpider”的Spider类。我们指定了要爬取的网站域名“weibo.com”和起始URL“https://weibo.com/”。 在parse()方法中,我们使用XPath表达式来提取每个微博的用户名、内容和时间,并将它们存储在WeiboItem对象中。最后,我们使用yield关键字将数据项返回给Scrapy引擎。 最后,你可以在终端中使用以下命令来运行爬虫: ``` scrapy crawl weibo ``` 这将启动Scrapy引擎,并开始爬取微博数据。爬取的数据将存储在JSON、CSV或其他格式的文件中,具体取决于你在设置中指定的格式。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值