自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 博客搬家

博客搬家至简书,地址为:https://www.jianshu.com/u/607756c88d8e

2019-07-13 19:27:51

阅读数 10

评论数 0

原创 scrapy选择器提取含表格相关标签内容

在scrapy框架提取网页内容会用到xpath,css选择器来提取我们想要的内容,相关的语法规格官方文档有详细的介绍,但实际应用的时候难免会有一些特殊的捣乱分子的存在,比如有些内容掩藏在层层标签之内,只要一层层的揭开也是很容易的,在这里分享一种和表格标签相关的元素提取。 爬取的网站是一个新西兰高等...

2019-04-02 13:07:03

阅读数 153

评论数 0

原创 git使用命令行上传代码

抛弃windows以及svn后,发现上传代码这样一个以前无比简单的操作成为了影响工作效率的障碍,经过一番努力,终于理清楚了整个过程,下面就分享一下这个过程。 首先要确认自己的电脑是否安装了git,只需要在命令行输入git命令,如果输出结果像下面这样,说明git安装成功: usage: git [-...

2019-02-10 21:25:20

阅读数 607

评论数 0

原创 python爬虫学习笔记-scrapy框架之start_url

在使用命令行创建scrapy项目后,会发现在spider.py文件内会生成这样的代码: name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://...

2018-12-30 12:40:18

阅读数 3727

评论数 0

原创 requests+正则表达式爬取豆瓣读书top250

简单的python联手项目,通过rquests库请求得到豆瓣top250网页源代码,并通过正则表达式匹配得到对应信息-书名,作者信息,评分以及简介。 网站的URL为’https://book.douban.com/top250?start=0’,但我们拉到底部发现250本读书的信息被分成了10页,...

2018-12-29 23:22:54

阅读数 503

评论数 0

原创 使用列表的一部分-python之切片

python中的列表是由一系列按特定顺序排列的元素组成,其中的元素可以是任何东西,而且其中的元素之间没有任何关系,有些类似与c#中的一维数组,只是相比较看来python列表的内涵要深的多。 在python中,用方括号[];来标识列表,并用都好来分割其中的元素,简单实例如下: countries=[...

2018-12-24 22:02:41

阅读数 87

评论数 0

转载 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

转载自:https://www.cnblogs.com/KevinYang/archive/2009/02/01/1381788.html 2006年5月15日 上午 07:15:00 发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻...

2018-12-23 11:13:49

阅读数 59

评论数 0

原创 python爬虫学习笔记分析Ajax爬取果壳网文章

有时在使用requests抓取页面会遇到得到的结果与在浏览器 中看到的结果不一样,在浏览器检查元素中可以看到的正常的显示的网页数据,但是requests请求得到的结果却没有。这是因为requests请求得到的时原始的html文档,而浏览器中的界面确实经过JavaScript处理数据生成的结果,这些...

2018-12-21 13:34:44

阅读数 161

评论数 0

原创 python爬虫学习笔记-使用BeautifulSoup解析html

之前抓取豆瓣图书Top250的时候,获取内容使用的方法是正则表达式匹配,看上去是一种比较简洁的方法,但问题在于,正则表达式的编写必须非常细心,一旦出了任何小问题,就会导致得不到想要的结果。熟悉html的话,不难想到可以利用节点之间的结构和层级关系来作区分并进一步获取节点内想要的文本。 于是Beau...

2018-11-24 11:23:46

阅读数 322

评论数 0

原创 python爬虫学习笔记-requests用法

python内置的urllib在某些高级应用时存在很多不方便的地方且功能似乎也没有想象的那么强大,于是更为强大第三方库requests库应运而生,有了它,cookies,代理,登陆操作都是简化很多。 首先确认安装requests库: pip install requests 1.类比于urlli...

2018-11-17 16:02:44

阅读数 67

评论数 0

原创 python爬虫学习笔记-urllib的使用

学习爬虫,最基本的操作即为模拟浏览器向服务器发出请求,python内置了一个名为urllib的内置HTTP请求库,有了它,我们只需要关心请求的链接是什么,需要传递什么参数,以及设置请求头等其他信息即可。这样,我们就不用深入底层的连接具体是怎样传输和通信(当然,这是站在巨人的肩膀上)。urllib库...

2018-11-17 11:47:15

阅读数 91

评论数 0

原创 微信的秘密-python可视化微信好友信息

记得2016年第一次开通微信的时候,我以及周围的大多数人还是重度的QQ用户,当时只是跟风开通了一下,也没觉得会改变什么。没想到才两年过去,我已经忘记了QQ的存在,每天起来第一件事就是查看微信,睡觉前也必然要看一下朋友圈有什么好玩有意义的事情,不得不说腾讯的产品策略绝对是一流的。那么我们能用pyth...

2018-11-11 12:33:08

阅读数 199

评论数 0

原创 python学习笔记之pygal可视化世界人口

数据可视化指的是通过可视化表示来探索数据,它与数据挖掘紧密相关,而数据挖掘指的是通过代码来探索数据集的规律及关联。漂亮地展示数据关乎的不仅仅是漂亮的图片。以引人入胜的简洁方式呈现数据,让观者明白其含义,发现数据中原本未意识到的规律与意义。 在这一领域,有更多人抛弃excel,matlab甚至是R...

2018-11-03 17:16:12

阅读数 278

评论数 0

原创 c#数组的操作

数组是绝大部分变成语言都支持的一种数据类型,无论是C,C++,C#,或是java。数组是具有相同数据类型的一组数据的集合。例如水果的集合–苹果,橘子,香蕉等等。在程序设计中将这些集合称为数组。数组中的每一个变量成为数组的元素,数组能够容纳元素的数量称为的数组的长度。数组中的每一个元素都有唯一的索引...

2018-10-11 07:07:34

阅读数 255

评论数 0

原创 hacker第一步,SQL注入式攻击及防止

SQL注入式攻击是指利用数据库查询语句的漏洞,在目标服务器上运行特定SQL命令以进行其他方式的攻击,部分因为设计的不严谨,导致动态生成的SQL语句没能对用户输入的数据进行有效的验证,使得攻击者可以绕开验证过程直接进入并进行攻击。 下面以SQL server 为例: 例如,如果用户使用的查询语句为s...

2018-09-30 21:34:37

阅读数 137

评论数 0

原创 以鹿为马-从凯撒到MD5

如果说验证码讲究的是实事求是,那么密码用以鹿为马来形容似乎也颇为恰当。你看到的永远只是我让你看到的,你想知道的是我永远不想让你知道的,于是密码与密码的破译便像一对双胞胎一样诞生了,其实它更像是一面单向玻璃的正反两面,紧紧贴在一起,却始终对对方是一副模糊的面孔。 初次认识到密码这个东西是从电视剧《暗...

2018-09-27 21:20:31

阅读数 62

评论数 0

原创 简单验证码的c#

第一次在CSDN写博客,还希望能有前辈多多指教,谢谢; 在登陆网页或者APP时,经常会遇到一些验证码要求输入,一般是数字和字母的组合或者一组汉字,本文简单介绍如何用c#来实现。 首先介绍一种生成数字和字母组合的方法: 自定义方法creatnum生成一个长度为count的字符串,为了避免生成重...

2018-09-25 22:29:07

阅读数 111

评论数 0

提示
确定要删除当前文章?
取消 删除