2017年05月_围巾的ACM

原创 Git 学习笔记

看了一下廖雪峰的Git教程，感觉很不错很入门 http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 推荐一波Git 学习安装git sudo apt-get install git 设置全局 git config --global user.name xxx git confi

2017-05-23 17:00:33 388

爬虫入门（五）多进程初探+初探数据分析生成简单云图前面呢我们简单介绍了健壮的爬虫，操作数据库等，然而，当数据量大起来的时候，我们的爬虫的效率是很低的，所以我们可以简单的使用多进程，充分利用我们的CPU资源，这里使用的是python自带的进程池来控制进程。环境：Ubuntu 16.04 python3.6.1因为妹子图最近不太稳定(你们懂的)，再加上最近在找实习，那么今天我们就选择智联招聘，来做简单的

2017-05-15 23:36:35 435

原创 win10远程控制ubuntu16.04

win10远程控制ubuntu16.04有时候呢要做一些课程设计，我一般都是在自己的ACM基地实验室的ubuntu下做的，而自己的笔记本用来娱乐，玩游戏用，那么问题来了，到时候怎么给老师检查呢？总不能搬实验室的机器去吧，那么我们就用自己的win10来远程控制一波吧 23333方法还是挺简单的： 1，打开终端，安装xrdp,vncserver sudo apt-get install xr

2017-05-14 14:33:20 12210 1

原创 python爬虫练手之斗图啦

互联网时代，难免会和别人在线上聊天，而现在的年轻人呐！一言不合就开始斗图！我难道就默默看着别人装逼吗？NO!拒绝！所以呢借此机会我们找个表情网站，爬一波图片啦斗图网链接： https://www.doutula.com由于网站结构比较简单，没有异步加载，直接从html就能查找信息啦，所以就不做详细分析~#coding:utf-8import requestsimport osfr

2017-05-13 18:34:31 1649

原创爬虫入门(四) ajax网页的爬取

ajax网页的爬取看完1，2，3的教程其实呢一些简单结构的网站基本都能爬取了，然而在现在网页页面资源越来越丰富的趋势下，每次一刷新就把整个网页给你重新加载已经是out的做法了，而你可能也会忍受不了它的加载速度，所以Ajax技术就诞生了，这是一种异步加载的技术，换而言之就是你看到的只是加载了一部分的页面，典型的就是如果壳网http://www.guokr.com/scientific/，你一直往下拉，

2017-05-04 20:52:17 3602

原创 python统一文件名小工具

使用python写一个统一文件名的小工具由于是班干，经常要收一些文件，而每个人命名自己的文件格式都不太一样，然而发给老师的时候肯定是要统一好格式嘛，那怎么办呢，自己手动改那太蠢了，于是乎用Python写了一波大体的思路很简单，因为每个人命名的时候不管格式怎么变，但是名字和学号是永远不会漏的，那么我们就可以以这个作为关键切入，直接找文件名里的学号来标识哪个同学，然后就从字典里找，然后通过os模块的re

2017-05-04 11:11:09 462

原创爬虫入门（三）连接mongodb

连接mongodb虽然说我们前面写了一个比较健壮的爬虫了，但是人生难免有意外，万一中断了，我们又要重新开始爬虫下载图片了，抓狂！那么我们想呢，怎么写一个判断图片有没有下载过呢？显然我们不能在文件夹里遍历….会慢到爆炸的，那么我们就可以借助数据库来实现去重啦环境 ubuntu 16.04 python3.6.1 数据库mongodbmongodb的一些基本操作在前面的博文有哟可以去看看或者自行百度

2017-05-02 12:40:05 2262 1

原创爬虫入门（二）让爬虫健壮起来

爬虫入门（二）不知道大家有没有去编写代码实战呢，如果有的话可能你就会发现有很多问题，最常见的就是爬取一段时间后就突然爬取不了了，整个程序直接中断了，又要重新开始爬取是很扎心的事情……显然别人的网站也不是傻子，肯定会有一定的反爬虫方法嘛一般网站上比较常见的有两种方法限制IP访问频率，超过频率就中断单个User-Agent访问次数超过次数就中断当然还有其他的方法，但是呢入门嘛我们就先解决这两种反爬

2017-05-01 15:19:17 1246

围巾的ACM博客