- 博客(7)
- 收藏
- 关注
原创 数据挖掘实践
客户价值分析数据挖掘流程获取原始数据数据探索数据预处理数据建模数据挖掘流程FLowchart:Created with Raphaël 2.2.0原始数据数据探索与预处理数据建模分析反馈获取原始数据采用爬虫或者其他方法获取航空公司客户的相关数据数据探索对数据进行缺失值或异常值分析,去除空值项和异常项。统计每列属性的特征:最大值,最小值等;把握数据的规律。数据预处理在了解数据的一般特征后,对数据进行清洗,属性规约,数据变换等操作。数据清洗:对于缺失值:原始数据量的则可以直接清楚缺失项
2020-09-23 15:41:36
551
原创 58同城 反爬虫机制及处理
58同城 反爬虫机制及处理字体反爬机制问题:字体反爬也就是自定义字体反爬通过调用自定义的ttf文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容!必须通过程序去处理才能达到采集成本。网页显示与源代码出现不一致的情况这里58同城将数字(比较敏感的元素,包括价格,面积大小)用自定义的ttf文件进行了渲染(该文件base64进行加密,包含数字到相应的unicode字符之间的映射信息),从而产生类似于乱码的情况。Base64
2020-08-15 20:17:26
5855
3
原创 爬虫——海大起点论坛房屋租赁信息
爬虫——海大起点论坛房屋租赁信息多协程CSV存储引用包import geventfrom gevent import monkeymonkey.patch_all(select=False)from gevent.queue import Queueimport csvimport reimport requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgent爬取流程代码class CZW_
2020-08-05 20:03:19
873
原创 海大官网数据爬取——总结
起始URL海南大学新闻网引用包import requestsimport csvfrom bs4 import BeautifulSoupimport re爬虫框架流程简易流程问题判断主题模块是否存在可爬取对象判断文章的容器是否为空如何获取文章列表的网页数:找出各模块存在的一致性网页元素——根据其构造URL判断文章链接是否为全域名各模块文章分开存储请求流量过多,服务器不响应代码# coding:utf-8import requestsimport csvfrom
2020-07-29 15:49:27
351
原创 小结
JSON函数selenium提取数据的方法近几天学习状况:1、 基础的爬虫框架:基于深度优先的通用爬虫对百度词条进行爬取(若没有限制,则会一直爬取下去)五个模块:各模块的解释2、反—反爬虫技术:(1)知乎验证码:问题:知乎的验证码分为两大类:英文验证码(属于输入类)和中文验证码(属于点击类),难点在于使用selenium模拟如何处理点击类验证码。发现在模拟登录过程中,账号和密码的输入需要有时延,不然会被发现为爬虫,登录按钮点击第一次没反应,第二次点击会出现验证码(随机是中文或英文)
2020-07-26 09:19:47
106
原创 基础爬虫框架
基础爬虫框架)python 基础爬虫框架URL管理器HTML下载器HTML解析器数据存储器爬虫调度器python 基础爬虫框架本人重温了此部分内容,为加深印象,写下此篇博客!看官图一乐。URL管理器有两个url集合:未爬取url集合与已爬取url集合。通过set()设置不重复每从未爬取URL集合中提取一个URL,必须将此URL放入已爬取URL集合中有一个判断函数:判断已爬取集合不为空有一个增添单个新URL的函数有一个增添URL集合的函数:需用到上述的方法HTML下载器需用到requ
2020-07-22 22:14:34
265
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人