数据采集
不要怂,就是干
渣渣挂机升级中
展开
-
数据分析师之路
简介:目前在整理个人的项目中,将写过的项目整理了一下。以后也会持续更新。。。。一、网络爬虫https://gitee.com/zcy4747/internet-worm.git1. 当当网数据爬虫2. 链家网络爬虫3. 眼电影数据爬虫4. 汽车之家网络爬虫5. 微博爬虫及热度跟踪二、数据分析https://gitee.com/zcy4747/data-analysis.git1. 安居客二手房数据分析2. 购物栏分析-关联规则3...原创 2021-04-03 16:49:46 · 329 阅读 · 0 评论 -
python 安装下载scrapy
安装scrapy之前需要安装Twisted,所以输入以下命令pip install Twisted -i https://pypi.douban.com/simple/下载很快,几秒搞定。第二部,下载scapypip install scrapy -i https://pypi.douban.com/simple/也是几秒搞定查看以下下载情况pip list...原创 2020-07-13 19:08:52 · 1057 阅读 · 0 评论 -
Tesserocr安装下载(里面有点坑)
这边下载有点慢,这里提供一下自己百度云的.我已经下载好了.链接:https://pan.baidu.com/s/1-a69qU0aFu8_IlYzy0QgMQ提取码:yd7i链接:https://pan.baidu.com/s/1Tt9vRsbk7uX9VVTGb36OiA提取码:1yhh上面这两个文件需要下载一下,这两文件分别是tesserocr-2.4.0-cp37-...原创 2019-11-25 17:56:26 · 2852 阅读 · 1 评论 -
微博数据的爬取,并对某一段时间热度进行检测
有网友反应数据不能再爬了,这里代码又更新了一次。已经能继续爬取。如还不能,可以联系。###导入模块import requestsfrom lxml import etreeimport timeimport os###网址url="https://s.weibo.com/top/summary?Refer=top_hot"###模拟浏览器header={'User-Age...原创 2019-09-23 16:29:24 · 2223 阅读 · 0 评论 -
mportError: cannot import name 'Bar' from 'pyecharts' 还有这个也出错Overlap
我的版本是1.5的,百度查了一下有问题。首先,卸载1.5的,pip uninstall pyecharts然后再下载pip install pyecharts==0.1.9.4 -i https://pypi.douban.com/simple/我们这里用镜像卸载解决等等等还是下载0.5.5版本的吧。最新版本用着用着又出错了这样就可以解决...原创 2019-09-22 20:06:36 · 2086 阅读 · 0 评论 -
学校官网数据的爬取
import requestsimport reimport bs4from bs4 import BeautifulSoup as bsfor i in range(1,11):#获取11页的新闻数据 if i==1: url = "http://news.gzcc.cn/html/xiaoyuanxinwen/index.html" else: ...原创 2019-02-01 23:28:55 · 2104 阅读 · 0 评论 -
xpath 用法
1. path 使用路径表达式在xml 和 html 中进行导航.2. xpath 包含标准函数库3. xpath 是一个w3c 的标准语法:arcticle : 选取所有arcticle 元素的所有子节点/arcticle : 选取根元素arcticlearcticle/a : 选取所有属于arcticle的子元素的a 元素//div : 选取所有div 子元...原创 2019-09-07 19:24:27 · 222 阅读 · 0 评论 -
爬虫去重策略
1. 将访问过的 url 保存到数据库中.2. 将访问过的 url 保存到本地内存中3 . 将 url 经过md5 编码等方法,哈希后保存到内存set中.(这个过程就是压缩处理)(scrapy 采用的就是这样方式)4. 用bitmap 方法,将访问过的url 通过hash 函数映射到某一位中.(缺点,易发生冲突)5.bloomfilter 方法对bitmap 进行改进,多重hash...原创 2019-09-06 17:18:12 · 107 阅读 · 0 评论 -
mongodb安装教程(附安装包)
废话不多说,直接上吧。下面是我百度云的链接,下载快一点。版本19年的。不知道为什么,我在官方那里下载了一天还没搞定。链接:https://pan.baidu.com/s/1pDPu8gEtC6jw4oFv6pyFcg提取码:2ehv复制这段内容后打开百度网盘手机App,操作更方便哦点开之后直接一直next就行。没有过多复杂的。。安装完成到你安装的路径,点击上面的data...原创 2019-09-06 10:55:30 · 1255 阅读 · 0 评论 -
爬虫基础与正则表示式
一、两个方向,scrapy 或者 request+beautifulsoupscrapy 更占优势,scrapy是基于twisted,性能更好,底层用C来写的。beautifulSoup 底层用的是Python写的,效率没那么高。二、正则表达几个重要的正则符号^b :必须以b开头. :代表任意字符* :前面字符能重复n次a$ :必须以a 结...原创 2019-09-05 22:25:18 · 104 阅读 · 0 评论 -
python 创建虚拟环境
一、1、首先,pip install virtualenv -i https://pypi.douban.com/simple/2、cmd上运行 virtualenv scrapylenv (scrapylenc是创建虚拟环境的名字)3、转换地址 cd scrapylenv4、cd Scripts 进入Scripts5、cmd上运行 activate.b...原创 2019-09-05 20:54:04 · 119 阅读 · 0 评论 -
数据清洗过程中的特征选择----主成分分析
主成分分析: Principal Component Analysis (PCA)PCA的本质就是找一些相互正交的投影方向的方差。计算原始数据在这些正交基上投影的方差越大,则说明在对应正交基上的信息量越多。原始数据协方差矩阵的特征值越大,对应的方差越大,在对应的特征向量上投影的信息量就越大,就是主成分。特征值小,说明数据在这些特征向量上投影的信息量很小,则这数据在总体中的影响很小,可以将...原创 2019-04-28 21:43:55 · 661 阅读 · 0 评论