Leo-Woo-CSDN博客

原创我的反爬解决方案（2）—— 模拟登陆

项目地址常见站点模拟登陆(长期维护)：https://github.com/IMWoolei/fuck-login前言爬虫的任务不仅仅是采集数据，自动刷访问量、自动发布内容等都属于爬虫所涉及的范围。而完成自动刷访问量、发布这些功能往往都需要在登陆状态下进行，另外HTTP是无连接\无状态的，所以实现登陆的目的是在本地生成Cookies，以记录本次会话状态。另外携带Cookies的请求，可以...

2019-08-11 23:26:34 1445 1

原创我的反爬解决方案（1）—— 怼代理IP

我的反爬解决方案（1）——怼代理IP项目地址免费代理IP池地址(长期维护)：https://github.com/IMWoolei/FreeProxyPool前言在常见的反爬手段中，最常见的是针对访问频度反爬，频度反爬中最常用的又是针对出口IP访问频率的限制。遇到封IP时的解决办法就是降低请求频率或更换请求出口IP，其中更换出口代理IP的方式最常使用的则是设置代理IP。代理IP来源...

2019-08-11 23:23:16 1855

原创利用Flask写了一个代理IP提取接口，并附上电影下载站点刷分程序用于测试代理IP可用性

热烈庆祝失踪人口回归代理IP获取接口接口地址：http://api.faceme.site/proxy/请求方法:GET接口参数：limit 单次代理IP提取数量，默认提取全部，int类型scheme 代理方式 http或https，默认不限oversea 境内代理0或境外代理1，默认不限type 返回文本格式，json或lines，默认以json形式...

2019-03-16 17:58:30 5232 3

原创 Python获取网页编码的两种方法——requests、chardet

方法一：使用requests模块In[2]: import requestsIn[3]: res = requests.get('http://baidu.com')In[4]: resOut[4]: <Response [200]>In[5]: res.encodingOut[5]: 'ISO-8859-1'方法二：使用chardet模块import chardetfrom urlli

2017-12-12 16:57:22 9809

原创 Python爬虫（四）：新增纵横中文网爬虫Demo--爬取136书屋小说，并保存至本地文本文件中，单进程多进程对比效率（以三生三世十里桃花为例）

运行环境：Python3.6、Pycharm2017.3、Windows10 RS3、requests2.18.4、BeautifulSoup4.6.0简介小说网址：http://www.136book.com/通过修改136book小说网中具体小说的url来爬取不同小说的分章节批量下载该代码以三生三世十里桃花为例（链接）–>http://www.136book.com/sanshengs

2017-12-12 00:03:08 3075 5

转载常用正则表达式汇总—（数字匹配/字符匹配/特殊匹配）

来源于知乎专栏：https://zhuanlan.zhihu.com/p/29619457 这个是我在知乎上看到前辈的专题，里面的专栏帮助了我很多，推荐大家去看看。 - 文章底部有很熟悉的一张正则表附图1. 校验数字的表达式 2.校验字符表达式 3.特殊需求表达式

2017-12-03 23:17:19 81562 3

原创（已更新）获取CSDN访问量、排名等信息存入JSON文件并绘图进行分析

运行环境: Python3.6、Pycharm2017.2、Windows10 RS4前言我的CSDN博客是今年八月份才开始写的，写博客的主要目的是对近期学习的知识点进行总结。在写博客的过程中也开始关注博客访问量、排名等等信息。因为正在练习爬虫技巧，所以我写了一个爬虫程序来获取我的CSDN博客访问量、排名、原创文章数、评论数这四个信息。初级目标是将其存入json或csv文件中最终目标是通过

2017-12-01 11:45:21 899

原创爬取猫眼电影网经典电影TOP100信息Markdown效果展示

No:1霸王别姬主演：张国荣,张丰毅,巩俐上映时间：1993-01-01(中国香港)评分：9.6了解更多…No:2肖申克的救赎主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿上映时间：1994-10-14(美国)评分：9.5了解更多…No:3罗马假日主演：格利高利·派克,奥黛丽·赫本,埃迪·艾伯特上映时间：1953-09-02(美国)评分：9.1了解更多…No:4这个杀手不太冷主演：让·雷诺,加里·奥德

2017-11-26 17:00:34 150704

原创 Python爬虫（三）：爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件（下）

运行环境：Python3.6.2、Pycharm2017.2 附此爬虫代码GitHub地址：https://github.com/IMWoolei/MaoYanMovies上一篇博客【链接】正文Markdown作为一个易上手的标记书写语言，能够提供高效清晰的书写板是，一直是我很喜欢的书写工具。 Python的第三方库中提供了Markdown模块，用于Markdown的书写，以及提供转htm

2017-11-26 16:53:39 1540

原创 Python爬虫（三）：爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件（上）

运行环境：Python3.6.2、Pycharm2017.2 附此爬虫代码GitHub地址：https://github.com/IMWoolei/MaoYanMovies ==>【效果链接】正文分析需要获取的信息进入到猫眼网经典电影TOP100页面【链接】需要抓取的数据有名次，海报，影片名、主演、上映时间以及评分。网页信息分析从中可以看到，每一步影片的信息都分别存在于<

2017-11-26 16:28:37 5158

原创 Python2和Python3中urllib库中urlencode的使用注意事项

前言在Python中，我们通常使用urllib中的urlencode方法将字典编码，用于提交数据给url等操作，但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。对于Python2Python2中提供了urllib和urllib2两个模块。urlencode方法所在位置为：urllib.urlencode(values) # 其中value

2017-11-16 20:57:51 70264 4

转载 Linux中Ctrl Z和Ctrl C的区别

参考来源：http://www.pythontip.com/blog/post/13123/两者区别关于Ctrl+Z和Ctrl+C这两个命令，他们都是中断命令，但是他们的作用却不一样。 Ctrl C是强制终止程序的执行并结束进程。而Ctrl Z则只是中断任务的执行，但该任务并没有结束，它只是在进程中维持挂起的状态，用户可以使用fg/bg操作来继续前台/后台执行该任务。 fg命令会重启前

2017-11-05 22:38:19 6927

原创 MySQL学习笔记（六）：MySQL中查看和修改表的存储引擎

我看网上有很多博客文章对各存储引擎都有了一个比较详细的阐述，但是多数是文字，各个储存引擎之间的对比不够明显。所以我上IMOOC网找了一个截图方便对比。存储引擎的修改MySQL初始默认引擎MySQL初始默认引擎为InnoDB。关于InnoDB的介绍从这篇文章中摘选了一些介绍【原文链接】：InnoDB是一个健壮的事务型存储引擎，这种存储引擎已经被很多互联网公司使用，为用户操作非常大的数据

2017-10-30 23:39:26 554

转载 MySQL中的注释符号的使用

原文地址：http://paulfzm.iteye.com/blog/748507前言在学习MySQL的过程中，因为目前接触的语法简单，所以实在没有想到过加入注释。在写博客使用Markdown时，突然想用注释语句，所以便百度了一下，引用了这一篇转载博客。MySQL中的注释符号有三种#...-- .../*...*/注意事项：其中...表示注释的文本内容 ★ 在使用-- ...注释

2017-10-30 22:44:53 10765

原创 MySQL学习笔记（五）：DELIMITER修改结束符及其应用

关于DELIMITER在MySQL中默认的结束符DELIMITER是;，它用于标识一段命令是否结束。在默认情况下，在命令行客户端中，如果有一行命令以;结束，那么回车后，MySQL将会执行该命令。修改DELIMITER如何修改在使用习惯中，我们经常将结束符更改为 ;; 、// 、 $$ 等。 DELIMITER 新的换行符

2017-10-30 22:25:08 6399

转载 MySQL修改root密码的4种方法(以Windows为例)

方法1：用SET PASSWORD命令;方法2：用mysqladmin;方法3：用UPDATE直接编辑user表;方法4：在忘记root密码的时候，可以这样。

2017-10-30 16:55:04 568

原创 MySQL学习笔记（四）：MySQL中LAST_INSERT_ID()使用时的注意事项

LAST_INSERT_ID()是MySQL中的一个函数，自动返回最后一个INSERT或UPDATE查询中AUTO_INCREMENT列设置的第一个表发生的值。

2017-10-30 16:25:51 2124

原创 MySQL学习笔记（三）：子查询语句中ANY、SOME、ALL关键字的使用

前言在使用子查询语句的过程中经常使用ANY、SOME、ALL（另外还有一个IN）关键字作为筛选条件。ANY、SOME、ALL关键字的使用使用关系表一览

2017-10-29 11:14:10 7606

原创 MySQL学习笔记（二）：查找记录方法-SELECT（详细）

select_expr 查询表达式每一个表达式表示所需要查找的一列，至少有一个多个列之间以英文逗号分隔星号（*）表示多有列。(tb_name.*可以表示命名表的所有列)查询表达式可以使用[AS] alias_name为其赋予别名别名可用于GROUP BY,ORDER BY或HAVING子句WHERE 条件表达式对记录进行过滤，如果没有指定WHERE子句，则显示所有记录在WHERE表达式中，可以使用

2017-10-23 01:23:13 1359

原创 MySQL学习笔记（一）：修改MySQL中的提示符

运行环境：MySQL5.7.2， Windwos10 RS3前言在登陆进入mysql数据库后，mysql的初始提示符只是一个很简单内容 mysql> ,没有其他任何信息。通过--prompt=name可以自定义提示信息，通过配置显示登入的主机地址，登陆用户名，当前时间，当前数据库schema等待等内容。修改方法我们一般通过两种修改方法来对MySQL提示符进行修改。方法一：连接客户端时通过参数指定来

2017-10-19 22:11:49 4344

原创 OpenMV色块定位-电赛的半个总结

回顾今年暑假基本上待在了学校，一方面是因为准备出去工作了，争取再学点东西；另一方面便是准备一下17年8月的全国大学生电子竞赛。赛场是我们学院所在的实验室，比赛期间几乎都待在实验室，甚至于睡觉。我们选的题目是I组-室内可见光定位，有很多成员贡献出可行的方案，也逐步尝试突破。前言竞赛不仅练就的是承受压力的能力和团队协作能力，也是对本身所学知识的总结利用。故在这篇博客中我想对我们组针对电赛I题的解

2017-10-13 00:14:10 20479 36

转载 BeautifulSoup中的HTML解析器对比

参考来源： http://cuiqingcai.com/1319.html关于BeautifulSoup简单来说，Beautiful Soup是Python的一个库，最主要的功能是从网页抓取数据。官方解释如下： BeautifulSoup提供一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多

2017-10-12 23:11:19 1416

原创 Python 3.6 模块安装“error: Microsoft Visual C++ 14.0 is required...”时出错的解决办法

环境：Python3.6，Pycharm2017.2.3，Windows 10 RS2错误情况今天在学习词云的时候，需要安装wordcloud包，但是按照pip管理工具直接通过包名进行安装却出错，报错情况如下：然后根据报错情况中的提示，我以为是系统组件缺少的原因：error: Microsoft Visual C++ 14.0 is required. Get it with "Microso

2017-10-12 11:33:05 37699

原创 Python爬虫：异步数据抓取并保存到Excel

Python爬虫：异步数据抓取并保存到Excel标签（空格分隔）： Python 爬虫异步环境：Python 3.6、Pycharm 2017.2.3、Chrome 61.0.3163.100======> 2018年3月3号更新整理了一下代码 <======修改了post请求中的form-data没有生效的错误修改为可直接从程序外部传入参数，可...

2017-10-11 20:35:58 19572 13

转载 Django框架-目录文件简介

转载链接：http://www.cnblogs.com/cherishry/p/6204187.html1.介绍DjangoDjango:一个可以使Web开发工作愉快并且高效的Web开发框架。使用Django,使你能够以最小的代价构建和维护高质量的Web应用。遵循模式:模型-视图-控制器(MVC)模式。简单的说, MVC 是一种软件开发的方法,它把代码的定义和数据访问的方法(模型)与请求逻辑

2017-10-10 17:21:08 1033

原创 Windows技巧：解决IE浏览器被篡改的问题

前言这两天想重温一下以前玩过的单机游戏，然后在我个人觉得还信得过的网站上找了一个破解版的，安装的时候小心翼翼，结果安装之后装上了一堆臭流氓软件，而且主页也被修改了。喜欢简洁风格的我哪能容忍这些操作，于是气愤的将游戏和一堆附加软件给卸载了，然后做起了修改回IE主页的操作。操作步骤查看IE主页的默认选项 IE浏览器 –> 工具 –> Internet选项 –> 常规结果一切正常。

2017-10-07 16:34:48 1821

原创 Windows技巧：在当前操作目录下直接打开命令窗口

前言在使用Linux的图形界面的时候，需要执行某个脚本或代码，可以直接在存放代码文件的目录下，鼠标右键打开终端，然后终端中显示的路径即为当前目录。在Windows中也能轻易做到在使用Windows系统中，经常会用到用命令窗口执行相关文件。而我以前的操作是： WIN+R –> 调出运行输入CMD –> 从用户文件夹切换到相关文件所在文件夹 –> 执行代码这一段操作下来，基本上需要10s以

2017-10-06 22:36:52 6537

原创 Python自动化运维笔记（八）：XlsxWriter模块实现Excel操作（下）

运行环境：Python3.6，Windwos10 RS1，Pycharm XlsxWriter模块中常用方法Workbook类 Workbook类定义：Workbook(filename[,options]) 该类可以实现创建一个XlsxWriter的Worbook对象。Workbook类表示整个电子表格文件。主要有三个：工作表、设置行列、插入图片

2017-10-06 16:57:51 8788 1

原创实验室NEWIFI-D1路由小云系统简易配置参考

上一篇博客使用的是华硕的固件，但是无奈硬盘在第三方固件下可能会出现未能识别的错误，折腾一天也无法解决。所以重新刷回了NEWIFI官方的老的路由系统，也是基本能实现功能。预期实现功能需要实现的三大功能 FTP文件共享实现打印服务，并共享打印机路由直接接入校园网，方便实验室人员直接访问校园内网网络设置在第一次使用或恢复出厂设置后，路由器WIFI是处于开放状态，无

2017-10-05 22:15:03 4105

原创使用路由器给实验室搭建FTP服务器的经历

前言写这篇博客的原因主要是给我所在的实验室路由器写一个配置参考文档，因为是作为实验室公共使，有不少不太懂配置的学弟学妹恐怕操作起来困难，毕竟马上就要走出学校开始工作了，所以以后的主要还是他们使用。需要实现的三大功能FTP文件共享实现打印服务，并共享打印机路由直接接入校园网，方便实验室人员直接访问校园内网

2017-10-05 18:01:00 16217

原创 Python自动化运维笔记（七）：XlsxWriter模块实现Excel操作（上）

运行环境：Python3.6，Windwos10 RS1，Pycharm 参考书籍—《Python自动化运维--技术与最佳实践》刘天斯著前言在系统运营方面，表格广泛用于业务质量、资源利用、安全扫描等报表，同时也是应用系统常见的文件到处格式，以便数据人员做进一步加工处理。模块介绍我们可以利用Python操作Excel的模块XlsxWriter，可以操作多个工作表的文字、数字、公式、图表等。

2017-10-03 22:52:53 6562

原创 Python自动化运维笔记（六）：使用smtplib模块发送电子邮件

运行环境：Python3.6，Windwos10 RS1，Pycharm 参考书籍—《Python自动化运维--技术与最佳实践》刘天斯著模块介绍我们在监测系统状态发送警报信息，或者业务质量报表的时候，可以通过发送邮件来第一时间获取服务状态。SMTP是发送邮件的协议，POP是接收邮件的协议。Python内置对SMTP的支持，可以发送纯文本邮件、HTML邮件以及带附件的邮件。Python对SMT

2017-10-03 11:56:56 3637

原创 Python自动化运维笔记（五）：使用filecmp模块实现文件以及文件目录差异对比

运行环境：Python3.6，Windwos10 RS1，Pycharm 参考书籍—《Python自动化运维--技术与最佳实践》刘天斯著模块介绍Python2.3以上的版本默认自带了filecmp模块，无需额外安装。我们可以用这个模块来检查原式与目标文件的一致性，filecmp可以实现文件、目录、遍历子目录的差异对比功能。

2017-10-02 17:11:12 1979

原创 Python自动化运维笔记（四）：使用difflib模块实现文件内容差异对比

运行环境：Python3.6，Windwos10 RS1，Pycharm我们可以通过Python的标准库模块（Python2.3以上就已经自带）difflib模块来实现文件内容的文本差异对比。并且支持输出可读性比较强的HTML文档，与Linux下的diff 命令相似。可以使用difflib对比代码，配置文件的差别，在版本控制方面非常有用。实现两个字符串的差异对比在下列示例程序中，我定义了两

2017-10-02 00:29:30 10684 4

原创 Python自动化运维笔记（三）：DNS处理模块dnspython

运行环境：Python3.6，Windwos10 RS1，Pycharm模块介绍dnspython 是Python实现的一个DNS工具包，支持几乎所有的记录类型，可以用于查询，传输并动态更新ZONE信息，同时支持TSIG（事务签名）验证消息和EDNS0（扩展DNS）。可以替代nslookup，dig等工具，轻松做到平台整合模块安装因为我电脑目前环境是Python3.6，已经继承了pip软件管理工具

2017-10-01 16:10:49 4423

原创 Python自动化运维笔记（一）：系统性能信息模块psutil

运行环境：Python3.6，Windwos10 RS1，Pycharm2017.2前言最近开始接触Python自动化运维，网上有不少教学资源可以供我们相对系统地去学习。而我是使用的优秀运维工程师刘天斯所著《Python自动化运维-技术与最佳实践》一书。psutil库能够轻松实现获取系统运行的进程和系统利用率（包括CPU、内存、磁盘、网络等）信息。主要用于系统监控，分析和限制系统资源进程的管理。

2017-09-30 22:27:11 1483

转载 ubuntu16.04安装ibus中文输入法

转载自：http://www.linuxdiyf.com/linux/20344.html安装中文输入法的时候，按照网上给的安装方法，没成功，在切换ibus的时候总是报错，记录下解决办法。看的别人教程里，这里都是用的im-switch来切换框架，我用的时候，一直提示im-switch: command not found，找了好多，就是没解决，后来发现，原来现在改成im-config了。

2017-09-30 17:20:01 820 1

原创使用BeautifulSoup中的find()和findAll()函数时关键字参数的注意事项

BeautifulSoup是Python里最受欢迎的HTML解析库之一。它可以提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。find()和findAll()在BeautifulSoup中的定义为：findAll(tag, attributes, recursiv

2017-09-27 09:21:50 13535

原创 urllib异常处理中HTTPError和URLError混用的注意事项

运行环境:Python 3.6、Pycharm 2017.2Python中写爬虫程序时，可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。注意事项如果在urllib.request产生异常时，用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面

2017-09-25 00:22:19 3702

原创 Python自动化运维笔记（二）：Python中的IP地址处理模块IPy的使用

该博文多数参考于运维偶像级人物刘天斯所著《Python自动化运维-技术与最佳实践》一书环境：Python 3.6前言Python提供了一个强大的第三方模块IPy（下载链接），用于计算IP地址，包括网段、子网掩码、广播地址、子网数、IP类型等等。目前最新版本为v0.83，文档介绍支持Python2.6-3.4，在实际使用中我是用的Python3.6运行没有出现异常。基...

2017-09-23 15:46:50 1354

空空如也

空空如也