python
文章平均质量分 52
围巾的ACM
啊啊什么时候也能成为一个大牛啊
展开
-
python安装Pillow库
开始玩玩python,第一个练手的项目是讲一副画转成字符串输出,首先我们要导入Pillow库,这是一个图像处理库第一步:通过cmd进入python的目录下的Scripts文件夹,在cmd模式下通过 cd 文件夹名就能进入,输入dir可以查看当前目录的内容第二步:通过自带的install.exe安装 pip安装成功后输入pip就能查看一些指令哟最后原创 2016-12-13 22:51:17 · 2237 阅读 · 0 评论 -
爬虫入门(五)多进程初探+初探数据分析生成简单云图
爬虫入门(五)多进程初探+初探数据分析生成简单云图前面呢我们简单介绍了健壮的爬虫,操作数据库等,然而,当数据量大起来的时候,我们的爬虫的效率是很低的,所以我们可以简单的使用多进程,充分利用我们的CPU资源,这里使用的是python自带的进程池来控制进程。环境:Ubuntu 16.04 python3.6.1因为妹子图最近不太稳定(你们懂的),再加上最近在找实习,那么今天我们就选择智联招聘,来做简单的原创 2017-05-15 23:36:35 · 435 阅读 · 0 评论 -
python爬虫练手之斗图啦
互联网时代,难免会和别人在线上聊天,而现在的年轻人呐!一言不合就开始斗图!我难道就默默看着别人装逼吗?NO!拒绝! 所以呢借此机会我们找个表情网站,爬一波图片啦 斗图网链接: https://www.doutula.com由于网站结构比较简单,没有异步加载,直接从html就能查找信息啦,所以就不做详细分析~#coding:utf-8import requestsimport osfr原创 2017-05-13 18:34:31 · 1649 阅读 · 0 评论 -
爬虫入门(四) ajax网页的爬取
ajax网页的爬取看完1,2,3的教程其实呢一些简单结构的网站基本都能爬取了,然而在现在网页页面资源越来越丰富的趋势下,每次一刷新就把整个网页给你重新加载已经是out的做法了,而你可能也会忍受不了它的加载速度,所以Ajax技术就诞生了,这是一种异步加载的技术,换而言之就是你看到的只是加载了一部分的页面,典型的就是如果壳网http://www.guokr.com/scientific/,你一直往下拉,原创 2017-05-04 20:52:17 · 3602 阅读 · 0 评论 -
python统一文件名小工具
使用python写一个统一文件名的小工具由于是班干,经常要收一些文件,而每个人命名自己的文件格式都不太一样,然而发给老师的时候肯定是要统一好格式嘛,那怎么办呢,自己手动改那太蠢了,于是乎用Python写了一波大体的思路很简单,因为每个人命名的时候不管格式怎么变,但是名字和学号是永远不会漏的,那么我们就可以以这个作为关键切入,直接找文件名里的学号来标识哪个同学,然后就从字典里找,然后通过os模块的re原创 2017-05-04 11:11:09 · 462 阅读 · 0 评论 -
爬虫入门(三)连接mongodb
连接mongodb虽然说我们前面写了一个比较健壮的爬虫了,但是人生难免有意外,万一中断了,我们又要重新开始爬虫下载图片了,抓狂!那么我们想呢,怎么写一个判断图片有没有下载过呢?显然我们不能在文件夹里遍历….会慢到爆炸的,那么我们就可以借助数据库来实现去重啦环境 ubuntu 16.04 python3.6.1 数据库mongodbmongodb的一些基本操作在前面的博文有哟可以去看看或者自行百度原创 2017-05-02 12:40:05 · 2262 阅读 · 1 评论 -
爬虫入门(二)让爬虫健壮起来
爬虫入门(二)不知道大家有没有去编写代码实战呢,如果有的话可能你就会发现有很多问题,最常见的就是爬取一段时间后就突然爬取不了了,整个程序直接中断了,又要重新开始爬取是很扎心的事情……显然别人的网站也不是傻子,肯定会有一定的反爬虫方法嘛一般网站上比较常见的有两种方法限制IP访问频率,超过频率就中断单个User-Agent访问次数超过次数就中断当然还有其他的方法,但是呢入门嘛我们就先解决这两种反爬原创 2017-05-01 15:19:17 · 1246 阅读 · 0 评论 -
简单使用requests库爬取Ip代理
简单使用requests库爬取Ip代理想必喜欢爬虫的小伙伴都知道,当你刚入门爬虫的时候通过一些基本的方法来访问网站,往往“爬得一时爽”,然而没过多久,IDE便会返回各种各样的错误信息,告诉你,爬虫失败啦,被拦截啦之类的那么其实呢我们有比较简单的方法来使得你的爬虫稍稍耐久一些,比如多个Ip代理,我们去 好站长 上就能找到啦,但是这么多,你要复制下来弄成一个List,你还要手动打引号和逗号,是不是很繁琐原创 2017-04-28 21:10:06 · 3180 阅读 · 0 评论 -
python3使用pillow库为图片添加滤镜
首先请保证电脑上安装有python,这里用的是python3.6,并且已安装pillow库,这是一个非常好用而且常用的图像处理的第三方库官方文档: 点击打开链接4行代码from PIL import Image,ImageFilterim = Image.open('1.jpg')im2 = im.filter(ImageFilter.FIND_EDGES)im2.s原创 2017-04-05 16:52:57 · 4957 阅读 · 1 评论 -
python运用jieba和wordcloud库简单实现对QQ聊天记录制作词云
首先说一下什么是词云,顾名思义就是很多个单词,然后通过出现的频率或者比重之类的标准汇聚成一个云朵的样子嘛就比如这样的那其实呢现在网上已经有很多能自动生成词云的工具了,比如Wordle,Tagxedo等等那么呢其实用python也能实现这样的效果,我们通过jieba库和wordcloud库也能十分轻松的完成词云的构建前期工作:安装Anaconda平台和安装jieba库和wor原创 2017-04-07 16:41:35 · 7392 阅读 · 2 评论 -
基于Scrapy爬取知乎信息
基于Scrapy爬知乎用户的信息只是偶尔在逛知乎的时候看到了有这样一个教学,顺便实战一下Scrapy框架的运用,教程懒得写了……百度知乎都一大堆……其实就是懒 = = 源码放在我的github上了,欢迎大家交流,现在遇到的问题是刷流量太快会被知乎检测到,然后就直接重定向了,后续会不断更新完善这个程序的https://github.com/xwj-scarf/zhihuSpider_v1.0原创 2017-06-04 16:50:23 · 1003 阅读 · 0 评论