怎样修改一个类中的数据成员_史上最强数据分析,一分钟就看懂

2328f85d81ae74e1265a6534694b14f7.gif

安装Scrapy

pip install Scrapy

安装mongodb

pip install pymongo

下面我们做一个简单示例,创建一个名字为BOSS的爬虫工程,然后创建一个名字为zhipin的爬虫来爬取zhipin.com网站

创建工程步骤:

1、创建工程 scrapy startproject BOSS

2、创建爬虫程序 cd BOSS 回车 scrapy gensipder zhipin zhipin.com

3、编写数据存储模板items.py 类对象继承自scrapy.item

4、编写爬虫zhipin.py 类对象集成子scrapy.Spider

5、修改settings.py配置文件 ITEM_PIPELINES =

{'BOSS.pipelines.WwwZhipinComPipeline':100}

6、编写数据处理脚本进行数据保存,pipelines.py 类对象继承自object

def process_item(self, item, spider):

with open("my_boss.txt", 'a') as fp:

fp.write(item['name'] + '')

7、执行爬虫 cd BOSS 回车 scrapy crawl zhipin --nolog

注意:如果导出的中文信息乱码则需要在settings.py文件中配置编码:FEED_EXPORT_ENCODING = 'utf-8'

创建爬虫zhipin

1、输入如下命令,创建zhipin爬虫

scrapy startproject www_zhipin_com

cd www_zhipin_com 回车 scrapy gensipder zhipin www.zhipin.com

2、修改zhipin.py,爬取数据,类中成员属性含义代码中都有解释,这里不做解释,需要注意的是parse方法,该方法是爬取到数据以后的回调函数,参数response表示爬取到的结果,我们可以对其进行解析拿到网页数据。

解析数据时,默认一次可以拿到30条数据,我们循环遍历这30条数据,构造WwwZhipinComItem对象item,然后调用yield item即可

def parse(self, response):

job_list = response.css('div.job-list > ul > li')

request_data = []

for job in job_list:

item = WwwZhipinComItem()

...

yield item

3、对于爬取的字段定义需要我们修改item.py文件,定义爬取字段如图

7bf50cc4adf5c92768767d2a3d0d039b.png

4、最后一步写入数据库

首先构造一个conn对象

db_name = 'zhipin_datas_C++'

nowMonth = datetime.datetime.now().month

settings = {

"ip":'127.0.0.1',

"port":27017,

"db_name" : db_name,

"set_name" : "test" 集合名字

conn = my_connect(settings)

指定要插入的集合,然后构造数据、插入数据如图

2c44aca079181870ff9f87b226841b3d.png

数据爬取结束后,使用gui工具Navicat 12 for MongoDB可以查看爬取到的数据,效果如图所示

9598a61119ca2753344b90119bcd7337.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值