DoctorAyuan-CSDN博客

原创猫眼爬虫top100(xpath,re)对评分进行数据可视化。

需求获取猫眼电影top100榜单电影名字、评分等。将提取到的数据保存与csv文件，并对电影评分进行可视化。注意点在保存数据至csv文件时，需要注意换行写入数据。在使用requests库时，通过基础的headers和cookies会遇到反爬虫机制。可准备多个user_agent，实现数据的提取。urllib库的requests模块在进行数据爬取时，在爬取数据时相较于requests库更不易被反爬虫，所以在请求十次url地址时。更多选择使用urllib.requests方法获取数据。使用urll.

2021-06-16 20:49:22 1120

原创数据分析案例及注意事项

数据来源kaggle数据平台注意点难点在于添加新的一列数组，可大大节省数据的读取时间。分组后的类型是可迭代类型，可使用for.in循环遍历。遍历的每一个对象是一个元组(分组对象，内容)在设置时间索引时，需考虑添加数组时索引是否对应，例如设置时间索引在添加类型数组之前会报错，既保证设置时间索引在添加数组之后使用plt.plot()函数绘制图形时，不可放在函数内。保证在一张图上显示所有数据对比。设置x轴数值时，需要在保证所需数据的变量为全局变量。x轴数据显示重叠时，设置rotation参数

2021-06-12 23:15:17 317

原创 scrapy项目--苏宁图书栏目内容爬虫

scrapy项目–苏宁图书栏目内容爬虫简介来自一个自学爬虫的Python小白的经历：通过网络上的教学视频，模仿编程。由于视频资源比较老旧，技术更新较快，所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题，包括已经解决和未解决的。再次申明，只是小白，只是简单的记录问题。目的：爬取每个大分类下的小分类的每一本书的标题，图片，信息以及图书详情页的价格scrapy创建爬虫scrapy startproject mySpider scrapy genspider name name.cn

2021-05-12 23:32:12 289

原创出现scrapy.Request中callback无法调用的问题

案例：某平台使用scrapy爬取数据问题：出现scrapy.Request中callback无法调用的问题部分源代码如下yield scrapy.Request( item["href"], callback=self.parse_detail, meta = {"item":item}, )出现不会执行parse_detail方法的情况解决方式：在Request方法中添加dont_filter=Tr

2021-05-06 22:39:59 1127 1

原创 mongo数据库命令

mongo数据库学习笔记（1）命令查看当前数据库：db查看所有数据库：show dbs/show databases切换数据库：use db_name删除当前的数据库：db.dropDatabase（）当想不存在的集合中插入数据，集合会被创建出来db.createCollection（“名字”）db.createCollection（“sub”，{capped：true，size：10}）参数capped：默认值false指不设置上限，无需指定size个数增删改查操作查看集

2021-04-28 20:57:17 169

原创 seleinum中解决需要定位到iframe中嵌套iframe的问题，Message: no such element: Unable to locate element

seleinum中解决需要定位到iframe中嵌套iframe的问题简介来自一个自学爬虫的Python小白的经历：通过网络上的教学视频，模仿编程。由于视频资源比较老旧，技术更新较快，所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题，包括已经解决和未解决的。再次申明，只是小白，只是简单的记录问题。案例豆瓣使用seleinum自动化登录初始代码from selenium import webdriverimport timedriver = webdriver.Chrome()

2021-04-19 22:53:03 945 4

原创新手爬虫出现报错“ no such element: Unable to locate element”

新手爬虫出现报错“ no such element: Unable to locate element”简介来自一个自学爬虫的Python小白的经历：通过网络上的教学视频，模仿编程。由于视频资源比较老旧，技术更新较快，所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题，包括已经解决和未解决的。再次申明，只是小白，只是简单的记录问题。案例：斗鱼直播板块主播页面照片地址，所属标签，热度值，以及主播名字初始代码如下:from selenium import webdriverimport

2021-04-18 22:32:23 11920 8

DoctorAyuan的博客