爬虫
文章平均质量分 81
M行者X
这个作者很懒,什么都没留下…
展开
-
爬虫课程笔记(九)Scrapy_redis、Pycharm 发布代码、爬虫定时Crontab
网址补全贴吧案例# -*- coding: utf-8 -*-import scrapyimport urllibimport requestsclass TbSpider(scrapy.Spider): name = 'tb' allowed_domains = ['tieba.baidu.com'] start_urls = ['http://tieba.baidu.com/mo/q----,sz@320_240-1-3---2/m?kw=%E6%9D%8E%E6原创 2021-12-11 14:40:11 · 441 阅读 · 0 评论 -
爬虫课程笔记(八)scrapy案例、Crawlspider、中间件
案例需求:爬取苏宁易购所有下所有图书和图书分类信息,以及子链接页面的价格内容。url : http://snbook.suning.com/web/trd-fl/999999/0.htm目标:熟悉前面的知识点# -*- coding: utf-8 -*-import scrapyimport refrom copy import deepcopyclass SuningSpider(scrapy.Spider): name = 'suning' allowed_domain原创 2021-12-08 21:44:22 · 1339 阅读 · 0 评论 -
爬虫课程笔记(七)scrapy入门与深入
爬虫课程笔记Scrapy异步与非阻塞区别爬虫流程入门创建一个scrapy项目生成一个爬虫提取数据保存数据logging实现翻页请求深入scrapy定义item程序的debug信息scrapy shellsetting文件重点Scrapy为什么学习scrapy?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取Scrapy 使用了Twisted['twɪstɪd]异步网络框架,可以加快我们的下载速度。http://scrapy-chs.r原创 2021-12-07 12:04:49 · 1457 阅读 · 0 评论 -
mongodb笔记(二)索引、python与mongodb交互
mongodb笔记索引创建索引python与mongodb交互重点索引创建索引索引:以提升查询速度测试:插入10万条数据到数据库中for(i=0;i<100000;i++){db.t12.insert({name:'test'+i,age:i})}db.t1.find({name:'test10000'})db.t1.find({name:'test10000'}).explain('executionStats')建立索引之后对比:语法:db.集合.ensureIndex({属原创 2021-12-06 10:44:43 · 684 阅读 · 0 评论 -
mongodb笔记(一)基础命令、增删改查、高级查询、聚合
mongodb笔记nosql介绍关系型与非关系对比mongodbmongodb安装mongodb 客户端基础命令数据库集合数据类型增删改插入查询保存更新删除高级查询⽅法find运算符支持正则limit和skip自定义查询*投影排序统计去重数据备份与修复聚合 aggregate常用管道表达式group$ project$match$sort$ limit$ skip$unwind重点nosql介绍“NoSQL”⼀词最早于1998年被⽤于⼀个轻量级的关系数据库的名字随着web2.0的快速发展, NoSQL原创 2021-12-05 20:09:13 · 1080 阅读 · 0 评论 -
爬虫课程笔记(六)动态html爬虫、Selenium和PhantomJS、Tesseract
爬虫课程笔记B站爬虫爬虫建议动态HTML技术(了解)Selenium和PhantomJSselenium demo入门页面等待为什么需要等待模拟登录豆瓣云打码dy爬虫TesseractZH爬虫重点B站爬虫# _*_ coding: utf-8 _*_import requests, refrom lxml import etreeclass BlBl: def __init__(self,url): self.url = url # 哔哩哔哩弹幕url原创 2021-12-05 11:38:43 · 1319 阅读 · 0 评论 -
爬虫课程笔记(四)正则表达式、XML和Xpath
爬虫课程笔记正则表达式python中原始字符串r的用法内涵段子爬虫(已失效)XML和XpathXPATH和LXML类库认识XMLXPATH节点选择节点选取语法lxml库重点正则表达式正则表达式的定义:就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑常用正则表达式的方法:re.compile(编译)pattern.match(从头找一个)pattern.search(找一个)pattern.findall(找所有)原创 2021-12-01 00:24:24 · 615 阅读 · 0 评论 -
爬虫课程笔记(三)chrome分析和post与JS、数据提取
爬虫课程翻译案例(已失效)reqeusts小技巧数据提取什么是数据提取?数据分类数据提取之JSON重点翻译案例(已失效)现在翻译接口需要多传两个参数 获取机制不明确# coding=utf-8import requestsimport jsonimport sysclass BaiduFanyi: def __init__(self,trans_str): self.trans_str = trans_str self.lang_detect_url原创 2021-11-29 22:35:29 · 778 阅读 · 0 评论 -
爬虫课程笔记(二)Requests、代理、cookie和session
这里写目录标题Requests 使用入门Requests作用发送简单的请求content和text 区别发送带header的请求发送带参数的请求发送POST请求贴吧爬虫案例使用代理cookie和session区别利弊处理cookies 、session请求重点Requests 使用入门问题:为什么要学习requests,而不是urllib?requests的底层实现就是urllibrequests在python2 和python3中通用,方法完全一样requests简单易用Requests能原创 2021-11-26 23:33:46 · 8429 阅读 · 0 评论 -
爬虫课程笔记(一)认识爬虫、复习http和字符串
爬虫课程通用爬虫和聚焦爬虫工作流程通用搜索引擎的局限性Robots协议复习HTTP和HTTPS客户端HTTP请求请求方法HTTP请求主要分为Get和Post两种方法字符串复习str类型和bytes类型Unicode UTF8 ASCII的补充str bytes如何转化重点网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做爬虫的更多用途12306抢票网站投票短信轰炸通原创 2021-11-24 18:13:40 · 948 阅读 · 0 评论