自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 element-ui使用select组件同时选中多个值

发现问题首先我们来看一段最基本的el-select代码<el-select v-model="selectedValue" placeholder="请选择"> <el-option v-for="item in food" :key="item.value" :label="item.label" :value="item.value"> </el-option></el-select>

2020-06-02 23:56:36 4631

原创 胸罩数据分析以及可视化

胸罩数据分析以及可视化上次用爬虫爬取了天猫还有京东的胸罩数据,不能让数据躺在硬盘里边睡大觉,不用来分析的数据和垃圾没有区别。所以今天就对采集到的数据进行分析,主要是胸罩种类分析,以及罩杯种类分析。数据库中数据结构如下图:分析数据以主要使用pandas,可视化使用matplotlib。基本用法就不提了,百度一大把。这里推荐《利用python》进行数据分析一书,某东某当都有卖的。下边主...

2018-05-22 23:50:35 1568

原创 hadoop2.7运行python编写的wordcount的MapReduce程序

前言一般来说,在学习某个新技术之前,都会写一个Hello World!的小程序,这个程序简单但是包含了一个程序所必须具备的一切。MapReduce程序也有自己的Hello World,那即是Word Count。在学习用python编写word count的过程中,遇到了许多坑,网上许多教程都过时了或者版本不对,许多基于python的word count教程都是转载自或者翻译自这片文章ht...

2018-04-24 15:02:25 3675

原创 python反爬之破解动态页面(三)

前言  在前边两节我们分析了两个动态页面,过程还算简单。今天,我们来看一个复杂的例子。本来博主自己找到了一个例子准备分析的。不过,在分析时偶然搜到一篇分析动态页面的文章,过程详细清晰,且过程一波三折。博主抱着学习与分享的心态转载再创造这片文章,不过经过博主自己的实践,整个过程有一些小问题,在后边也会指出,原文参考自崔老师崔庆才的博客。正文疑难杂症  中国空气质量在线监测分析...

2018-04-22 15:23:10 1029 1

原创 Python反爬之破解动态页面(二)

前言上次我们讲到了破解一个简单的动态页面,post的元素是可以直接在源码里边找到的,然而大多数的时候,想服务器post的数据是需要经过复杂的加密逻辑生成的。这次我们就来分析一个经过加密的算法生成数据的页面。正文这次选取的目标是小说网站书旗,不过被阿里收购后,已经叫阿里文学了。我们到书库里边用文字的形式查看一下书籍列表,这就是我们今天的分析对象了,如何获取这个列表的信息。首先右键查看一下页面源码,果...

2018-04-17 11:27:33 709 1

原创 Python反爬之破解动态页面(一)

前言可能很多同学看到关于动态页面的反爬(比如基于Ajax的网页)第一反应就是selenium+headless browser,这个方法好是好,然而是基于真实的浏览器,虽然没有界面,但是也占用很多内存。小型的测试用selenium的确不错,但是一旦业务量大起来了,需求复杂了,甚至需要分布式爬虫操作时,这个方法对于内存的开销实在受不了。那么有不用selenium的方法吗?当然有,今天就教大家硬刚基于...

2018-04-13 16:29:04 2036

原创 scrapy实战之与豆瓣反爬抗争

前言scrapy是优秀的Python爬虫框架,最近在使用scrapy爬取豆瓣音乐信息时,着实被其反爬机制搞了一下。虽然豆瓣提供了各种API可以供我们提取信息,但是我就是要用爬虫爬你练手。正文常见的反爬机制有如下几种:1.请求头检查,比如cookies,user-agent,refer,甚至Accept-Language等等,这也是最基本的反爬机制。2.访问频次检查,如果一个ip在短时间内访问次服务...

2018-04-07 15:21:51 7554 1

原创 详细分析python3爬取max+新闻数据(二)

正文上一篇文章我们已经分析了如何获取新闻的url页面,以及url页面的参数设置。现在就来具体编写代码实现爬取数据存入数据库。首先看看我们想要的,用Chrome打开新闻list的url,F12进入开发者模式,在network中的preview可以查看json信息。我们可以获取,类型content_type,时间date,点击click,文章链接newsurl,文章编号newsid,标题title,来...

2018-04-02 18:14:50 907

原创 解决Tensorflow 使用时cpu编译不支持警告

使用TensorFlow模块时,弹出错误Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2原因是下载TensorFlow的版本不支持cpu的AVX2编译。可能是因为安装时使用的pip install tensorflow ,这样默认会下载X86_64的SIMD版本。...

2018-03-29 22:08:20 71266 39

原创 python编写的bt爬虫实践

前言网上各种爬虫实战都有很多,比如爬取微博,贴吧消息,妹子图等等。但是爬bt的就很少了(似乎暴露了什么。。。),所以准备自己动手写一个爬bt的爬虫。好的,话不多说进入正题,博主用的python3.6,ide用的sublim。正文首先就是寻找一个合适的bt搜索网站,记得以前有好多著名的bt站,比如种子列表,或者torrentkitty什么的,后来由于某些大家都知道的原因,这样的网站封禁了一大批。所以...

2018-03-13 15:47:16 5786 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除