爬虫项目及相关技能
海人001
爱码仕
展开
-
bs4删除元素
删除自身tag.decompose()去除某类型soup = BeautifulSoup(r.text, "lxml")#去除soup里面的script和style标签[s.extract() for s in soup('script')]原创 2021-09-16 10:04:40 · 903 阅读 · 0 评论 -
爬虫请求头UserAgent分享大全,PC,Android,ios
MY_USER_AGENT = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Brow...原创 2018-12-24 10:19:52 · 12348 阅读 · 0 评论 -
初涉中文词频分析
目录什么是知识热点选取-比特币新浪微博数据爬取比特币价格时间节点选取爬取新浪微博熵增--混乱到秩序储存格式简介、Txt,npy时间的处理由字符串到时间过滤无效时间中文分词—jieba去除无效字符--停用词由数据到信息三种情景的词频分析updowndone幂法则绘制词频云图时间序列重抽样上涨重采样下跌重采样...原创 2019-02-15 09:59:15 · 11064 阅读 · 0 评论 -
马蜂窝爬虫--往期创作整理
目录1网站目标:2网站分析2.1第一步获取月份2.2第二部根据月份获取城市url2.3第三部根据top5景点链接获取景点信息3所用技术3.1爬取技术3.1.1模仿浏览器请求数据包3.1.2正则表达式提取关键信息,动态构建url请求3.1.3Beautifulsoup大量获取3.1.4Xpath精确定位3.1.5url字典3.2反扒技术3.2....原创 2019-02-13 14:45:38 · 12359 阅读 · 0 评论 -
京东生鲜全品类爬虫--往期创作整理
目录 目标爬取思路网页加载流程数据包获取 JS逆向解析抓包过程关于并发和分布式代码连接 目标爬取京东到家的数据,京东到家没有反爬虫,只要速度不过分即可品类:新鲜水果、海鲜水产、精选肉类、冷饮冻食、蔬菜蛋品数量:每个大类 100+页 极限单品信息:价格、会员价、来源(京东超市标签)、品名、规格(数量、重量)、特色标语(高档水果年货集市……)...原创 2019-02-13 19:07:42 · 12615 阅读 · 1 评论 -
基于scrapy-redis的分布式腾讯新闻爬虫
目录任务目标爬取流程设计文字描述流程图项目实施硬件设施软件设施功能概述结构功能图网站分析主页获取其他新闻链接内容页获取正文及判断:获取标题获取评论数据库设计重要代码解释tc_spider爬虫文件middlewares中间件setting配置文件设置项目测试redis去重测试内容页测试分布式测试好...原创 2019-02-19 20:52:16 · 13992 阅读 · 2 评论 -
webdriver实用功能--操作元素属性
目录引入包添加属性修改属性获得属性值移除属性引入包#encoding=utf-8from selenium import webdriver添加属性def addAttribute(driver, elementObj, attributeName, value): driver.execute_script("arguments[0].%s=a...原创 2019-03-06 09:19:13 · 11411 阅读 · 0 评论 -
微信公众号文章爬虫
接口:搜狗微信搜索https://weixin.sogou.com/流程利用搜狗微信搜索文章,第一个爬虫爬取文章的url,第二个爬虫爬取获取到的url。https://github.com/GuoHongYuan/WeiXinCrawl/tree/master/WeiXinCrawl...原创 2019-08-13 18:11:04 · 10411 阅读 · 0 评论 -
爬虫定位器--Beautiful Soup和selenium用法大全
目录前言Beautiful Soupselenium前言最近爬虫定位元素总是觉得力不从心,搜集了几篇文章的知识,以供参考。后缀名就是对于便签的属性,这些方法虽然不是最好的,但是写一些小爬虫来定位是没问题的。Beautiful Soup find()find_all()find_parent()...原创 2018-11-15 21:17:37 · 10838 阅读 · 2 评论 -
爬虫简单验证码处理,Tesseract简单使用
目录思路测试解析网页代码加载验证码图像光学字符识别使用tesseract分析验证码完整注册提交代码结束语思路在爬虫过频繁时可能会返回验证码界面,区别人类和图灵机,我们要做的是就是将验证码转换为文字,提交表单。测试下面链接是教科书中的例子http://example.webscraping.com/places/default/user/reg...原创 2018-11-15 21:11:58 · 10724 阅读 · 0 评论 -
爬虫数据节点操所-----XML、LXML、xpath
目录前言什么是XMLXML 和 HTML 的区别XML文档示例XML的节点关系什么是XPath?XPath 开发工具选取节点谓语(Predicates)选取未知节点选取若干路径什么是lxml?初步使用文件读取:XPath实例测试前言有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? ---------- 有...原创 2018-11-13 11:49:25 · 10518 阅读 · 0 评论 -
python正则表达式
目录什么是正则表达式正则表达式匹配规则Python 的 re 模块re 模块的一般使用步骤如下:compile 函数match 方法search 方法findall 方法finditer 方法split 方法sub 方法匹配中文注意:贪婪模式与非贪婪模式示例一 : 源字符串:abbbc示例二 : 源字符串:aa什么是正则表达式正则...原创 2018-11-13 09:44:38 · 10609 阅读 · 0 评论 -
python2.7爬取大众点评 模拟鼠标 python第二天含源码
*第二天是指写博客的第二天创作背景对于新手来说最快的学习方法就是看项目,在百度搜索python爬虫基本都是爬大众点评的,不知道这个网站做错了什么被这么多人爬。接下来博主兴冲冲的找了几个有代码的博客,改了改就测试,但是结果无非就是网站不能正常访问啊,需要拖动验证之类的,还有的就是只有头尾两部分,总之没有看到想要的结果,看来大众点评这几年也在反爬虫上下了功夫。但是博主就跟他杠上了,无奈水笔博主...原创 2018-09-08 20:36:10 · 11124 阅读 · 0 评论 -
python2.7 BeautifulSoup 爬QQ空间说说-含源码-第一天
目录python爬虫常用库之bs4安装安装 Requestspip install requests获得源码包安装:XPATH和元素节点获取获取:代码和注释:测试结果:更多机会和学习资料,加入下方QQ群python爬虫常用库之bs4 bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来解析html标签。 安装...原创 2018-09-04 22:57:37 · 10839 阅读 · 0 评论 -
python scrapy包的安装及简单使用
目录scrapy简介:Scrapy架构图(绿线是数据流向):安装方式:自动生成项目文件:scrapy简单测试:标准的爬虫项目:有问题留言,我尽力帮助scrapy简介:Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试Scrapy架构图(绿线...原创 2018-09-15 09:36:08 · 14516 阅读 · 0 评论 -
Python2 scrapy 图片下载 爬图片
在Scrapy中文网找到一个小例子,虽然不是自己写的,但是把它温习一遍也是学习。Item部分:主要爬去内容为图片的名字和链接,链接用来下载。# -*- coding: utf-8 -*-import scrapyclass AoisolasItem(scrapy.Item): # define the fields for your item here like: n...原创 2020-12-25 09:22:14 · 9285 阅读 · 0 评论 -
python爬虫 javascript动态数据 携程旅游 含源码
数据源分析本次练手的网站是携程,主题是欧洲游,进入目标页面,点击js插件。没有的朋友可以去装一个。也可以设置浏览器关闭js 原界面禁用js后的界面很多重要信息都不见了,这些内容就是js动态加载的。上面我用的浏览器是火狐,因为装插件比较方便,下面换谷歌浏览器,分析方便。目标界面-右键检查在下面选择Network彩蛋然后点击上面的刷新,拖动右边的长方...原创 2018-09-24 23:26:09 · 11316 阅读 · 0 评论 -
pyhton2爬虫 爬IP IP代理池 urllib2设置 scrapy设置
目录前言获取IP其他代理网站IP验证 urllib2配置IPScrapy配置IP常规方法:我的写法:前言使用代理IP,这是爬虫/反爬虫的利器,通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁...原创 2018-09-29 11:31:46 · 10610 阅读 · 0 评论 -
python 爬虫 cookies设置,获取登陆后界面。
前言CookieCookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。Cookie原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:Cookie名字(Name)Cookie的值(Value...原创 2018-09-29 18:53:23 · 12557 阅读 · 4 评论 -
python2 scrapy-redisd搭建,简单使用。爬取豆瓣点评
Scrapy 和 scrapy-redis的区别Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。Scrapy-redis提供了下面四种组件(components):(四种组件意味着这四个模块都要做相应的修改)Scheduler Duplication Filter...原创 2018-10-01 20:07:32 · 10375 阅读 · 0 评论 -
Fiddler抓包---手机APP--python爬虫 基本设置和操作
目录Fiddler安装手机wife设置解析包信息 python爬取代码:Fiddler安装下载:https://www.telerik.com/download/fiddler安装配置选项 这个很必要,电脑否则不能上网 用谷歌浏览器访问,获取证书 http://localhost:8888/手机电脑浏览器都要装,发...原创 2018-10-24 15:14:04 · 11445 阅读 · 2 评论 -
Python的Request函数用法
目录发送请求POST 请求:其他请求:传递 URL 参数响应内容二进制响应内容JSON 响应内容原始响应内容定制请求头更加复杂的 POST 请求POST一个多部分编码(Multipart-Encoded)的文件响应状态码响应头Cookie重定向与请求历史发送请求导入 Requests 模块:然后,尝试获取某个网页。imp...原创 2018-11-09 14:46:31 · 19171 阅读 · 0 评论 -
python文件读写--更新部分技巧
目录DataFrame函数表python基本IO项目内文件操作其他文件操作符EXCEL操作:DataFrame函数表python基本IOimport pickleimport numpy as npfrom random import gaussa = [gauss(1.5,2) for i in range(1000000)]path = 'E:/...原创 2018-09-09 20:00:15 · 11292 阅读 · 0 评论