mongodb
文章平均质量分 71
andux
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫爬取17k小说网全部章节信息(MongoDB,分页)
跟着教程爬取京东的时候,一会爬出来,一会儿爬不出来,京东反扒挺厉害啊。跟着教程走,还是出不来结果,看着自己的代码没错啊。使用正则表达式获取当前链接中的翻页参数,就是变化的数值,让它+1,形成新的链接。多练习,多看教程,原来代码是这个意思啊。刚开始,只会照着教程抄代码,囫囵吞枣,先有个大概的了解和熟悉,现在要慢慢深入理解代码的含义了。越来越发现,pipelines里面的代码,都成固定的了,几乎不用修改,可以拿之前的直接用。17k小说网分类中小说还是挺多的,为了方便查看结果,就缩小了小说书籍的范围。原创 2023-10-19 10:53:41 · 388 阅读 · 0 评论 -
scrapy爬取17k小说网分类列表中最新小说章节内容(RedisSpider,redis,mongodb,翻页)
redis可以用于分布式爬取,就是可以同时使用多个进程(多个终端)运行同一个应用,redis可以自己调度每个进程的任务列表,共同完成相关任务。settings.py文件里配置redis数据库连接,DOWNLOAD_DELAY = 1是间隔一秒再执行,网站没有反扒的时候,可以注释掉。这里需要注意,需要清空redis数据库,不然有数据它就不执行了,因为它认为已经执行过了。MongoDB数据库清空是为了看清楚数据变化。数据库实体类中的字段顺序,决定了最后存储到MongoDB数据库中的字段顺序。原创 2023-10-18 15:14:01 · 132 阅读 · 0 评论 -
CrawlSpider爬取聚美优品之翻页(MongoDB)
,做这个就简单多了,视频教程里也很简单,毕竟是入门CrawlSpider的实战小demo。这个视频教程真的做的很贴心。选择雅诗兰黛这个品牌,而且需要在其他页面,才能选择下拉菜单,看把人家聚美优品折腾的,首页都不敢放下拉菜单了~~~~聚美优品上打不开兰蔻品牌的链接啊,显示404啊。是不是爬崩溃了😄……学无止境,学到后期,不仅仅是有手就行,要做到无手自行才行吧……列表页选择5个商品,选择循环3个列表页面。数据库实体类pipelines.py。废话不多说,我忒忙……是不是感觉有手就行了?自从学习了上个案例(原创 2023-10-17 11:24:10 · 82 阅读 · 1 评论 -
CrawlSpider爬虫之爬取17k小说网列表详情及章节并放在一起(CrawlSpider翻页、MongoDB)
在使用mongo进行业务处理中,有时需要对文档(document)中的某个数组节点进行操作,这是下面要提到的 p u l l , pull, pull,push,$set操作。到此这篇关于MongoDB对数组进行增删改查操作的文章就介绍到这了,更多相关MongoDB对数组增删改查内容请搜索脚本之家以前的文章//$表示匹配到的第一个为EX1002的对象修改掉//如果想匹配多个值,可修改为$[]rules = (# 书名列表,获取第一本书的详情页信息。原创 2023-10-17 09:24:07 · 943 阅读 · 1 评论 -
爬取豆瓣读书页爬虫之翻页、详细页(scrapy,MongoDB)
使用scrapy框架进行爬虫爬取页面内容,在settings里面可以把USER_AGENT设置好,在items里面把数据库实体类设置好,在middlewares里面把代理设置好,在pipelines里面把MongoDB数据库的写入操作写好,在app里把逻辑写好,就可以了,这样把功能分开写在对应的文件里,方便对代码进行管理。不能递归函数,需要使用回调,可以看出,p=1就是翻页的参数,如果不使用scrapy框架,那就让p+1来进行翻页,使用下一页的href是否为空来判断是不是最后一页。原创 2023-10-12 11:09:14 · 1282 阅读 · 0 评论 -
豆瓣电影爬虫练习之下滑惰性加载(延迟加载、懒加载、无限滚动、瀑布流)
爬虫如果要翻页,需要有page参数变化,有规律才好翻页继续爬下去,如果没有规律,就只能爬一次就结束了,所以爬虫要持续执行,需要找到数据加载的规律,也就是找到那个动态变化的参数,而且这个参数还是有规律的,比如每次加1,或者像豆瓣电影列表里,每次加20。爬豆瓣电影列表用MongoDB数据库进行保存数据,需要在MongoDB中创建一个数据库和表(collection)。其中参数start在变化,其他的参数都不变,这就有规律可循了。原创 2023-10-11 10:00:20 · 901 阅读 · 0 评论 -
mongodb Windows安装与使用教程(python)
MongoDB是一个开源的、高性能、非关系型数据库。它使用BSON(二进制JSON)格式存储数据,具有灵活的数据模型和可扩展性。pymongo是MongoDB官方提供的Python驱动程序,它提供了一种灵活、强大的方式与MongoDB进行交互。python开发里面也常用到MongoDB数据库,感觉类似个开放式的json格式的数据库,用键值对来存储数据,类型较少,键值对嘛,除了字符串就是数值了,就是层级可以无限套娃,以前有个野狗数据库,就是这样的,每个节点{}里面有个唯一的id。# 安装过程。原创 2023-10-10 17:52:32 · 219 阅读 · 1 评论