自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 猫眼爬虫top100(xpath,re)对评分进行数据可视化。

需求获取猫眼电影top100榜单电影名字、评分等。将提取到的数据保存与csv文件,并对电影评分进行可视化。注意点在保存数据至csv文件时,需要注意换行写入数据。在使用requests库时,通过基础的headers和cookies会遇到反爬虫机制。可准备多个user_agent,实现数据的提取。urllib库的requests模块在进行数据爬取时,在爬取数据时相较于requests库更不易被反爬虫,所以在请求十次url地址时。更多选择使用urllib.requests方法获取数据。使用urll.

2021-06-16 20:49:22 1084

原创 数据分析案例及注意事项

数据来源kaggle数据平台注意点难点在于添加新的一列数组,可大大节省数据的读取时间。分组后的类型是可迭代类型,可使用for.in循环遍历。遍历的每一个对象是一个元组(分组对象,内容)在设置时间索引时,需考虑添加数组时索引是否对应,例如设置时间索引在添加类型数组之前会报错,既保证设置时间索引在添加数组之后使用plt.plot()函数绘制图形时,不可放在函数内。保证在一张图上显示所有数据对比。设置x轴数值时,需要在保证所需数据的变量为全局变量。x轴数据显示重叠时,设置rotation参数

2021-06-12 23:15:17 303

原创 scrapy项目--苏宁图书栏目内容爬虫

scrapy项目–苏宁图书栏目内容爬虫简介来自一个自学爬虫的Python小白的经历:通过网络上的教学视频,模仿编程。由于视频资源比较老旧,技术更新较快,所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题,包括已经解决和未解决的。再次申明,只是小白,只是简单的记录问题。目的:爬取每个大分类下的小分类的每一本书的标题,图片,信息以及图书详情页的价格scrapy创建爬虫scrapy startproject mySpider scrapy genspider name name.cn

2021-05-12 23:32:12 279

原创 出现scrapy.Request中callback无法调用的问题

案例:某平台使用scrapy爬取数据问题:出现scrapy.Request中callback无法调用的问题部分源代码如下yield scrapy.Request( item["href"], callback=self.parse_detail, meta = {"item":item}, )出现不会执行parse_detail方法的情况解决方式:在Request方法中添加dont_filter=Tr

2021-05-06 22:39:59 1096 1

原创 mongo数据库命令

mongo数据库学习笔记(1)命令查看当前数据库:db查看所有数据库:show dbs/show databases切换数据库:use db_name删除当前的数据库:db.dropDatabase()当想不存在的集合中插入数据,集合会被创建出来db.createCollection(“名字”)db.createCollection(“sub”,{capped:true,size:10})参数capped:默认值false指不设置上限,无需指定size个数增删改查操作查看集

2021-04-28 20:57:17 157

原创 seleinum中解决需要定位到iframe中嵌套iframe的问题,Message: no such element: Unable to locate element

seleinum中解决需要定位到iframe中嵌套iframe的问题简介来自一个自学爬虫的Python小白的经历:通过网络上的教学视频,模仿编程。由于视频资源比较老旧,技术更新较快,所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题,包括已经解决和未解决的。再次申明,只是小白,只是简单的记录问题。案例豆瓣使用seleinum自动化登录初始代码from selenium import webdriverimport timedriver = webdriver.Chrome()

2021-04-19 22:53:03 923 4

原创 新手爬虫出现报错“ no such element: Unable to locate element”

新手爬虫出现报错“ no such element: Unable to locate element”简介来自一个自学爬虫的Python小白的经历:通过网络上的教学视频,模仿编程。由于视频资源比较老旧,技术更新较快,所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题,包括已经解决和未解决的。再次申明,只是小白,只是简单的记录问题。案例:斗鱼直播板块主播页面照片地址,所属标签,热度值,以及主播名字初始代码如下:from selenium import webdriverimport

2021-04-18 22:32:23 11792 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除