- 博客(8)
- 资源 (10)
- 收藏
- 关注
原创 selenium抓取卡推漫画--狐妖小红娘改进版
1、流程框架1.1、获取配置文件信息获取配置文件信息包括存储文件的电脑本地路径、上次抓取的漫画某话序号以及其已下载的图片序号数。1.2、抓取漫画每一话的链接利用selenium无驱动浏览器通过显式延时以及css selector搜索得到漫画每一话的链接1.4、抓取某一话漫画的名称以及每个图片的链接利用selenium驱动浏览器通过关键字获取某一话信息以及其每个图...
2018-04-22 18:02:47 4136
原创 selenium抓取卡推漫画--狐妖小红娘
1、流程框架1.1、抓取漫画每一话的链接利用selenium驱动浏览器通过css selector搜索得到漫画每一话的链接1.2、抓取某一话漫画的名称以及每个图片的链接利用selenium驱动浏览器通过关键字获取某一话的名称以及其每个图片的链接1.3、下载每个图片并保存到电脑本地通过requests获取的图片的内容保存到本地电脑上2、代码如下from s...
2018-04-19 22:08:39 7049
原创 python常用模块:configParser
1、简介 configparser用于配置文件解析,可以解析特定格式的配置文件,多数配置文件的格式为XXX.ini。该模块的作用就是使用模块中的RawConfigParser()、ConfigParser()、SafeConfigParser()这三个方法(三者选择其一),创建一个对象使用对象的方法对指定的配置文件做增删改查操作。其中RawConfigParser是最基础的ini文件读取类,Co...
2018-04-08 22:35:42 675
原创 python常用模块:json
如果要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML,但更好的方法是序列化为JSON。因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。1、json简介 Json,全名JavaScript Object Notation,是一种轻量级的数据...
2018-04-08 13:39:55 197
原创 python常用模块:hashlib
1、简介 python中hashlib用于加密相关的操作,代替了MD5模块和sha模块,主要提供了sha1、sha224、sha256、sha384、sha512摘要算法。另外,模块中所定义的new(name,string=)方法可以指定系统所支持的hash算法来构造相应的hash对象。 摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个固定长度的字符串(通常用16进制...
2018-04-08 11:32:40 272
原创 requests爬取猫眼电影top100
1、流程框架1.1、抓取单页内容 利用requests请求目标站点,得到单个网页HTML代码,返回结果。1.2、正则表达式分析 根据HTML代码分析得到电影的排名、地址、名称、主演、上映时间、评分等信息。1.3、保存至文件 通过文件的形式将结果保存,每一部电影一个结果一行Json字符串。1.4、开启循环及多线程 对多页内容遍历,开启多线程...
2018-04-07 20:12:31 478
原创 python常用模块:random模块
在python中,random模块用于生成随机数。下面介绍一下random模块中最常见的几个函数。1、random.choice(seq) 从序列中获取一个随机元素,参数seq表示一个有序类型,seq在python中不是一种特定类型,而是泛指一系列的类型,如list、tuple、字符串。import randomprint(random.choice('abcdefe'))p...
2018-04-07 15:19:46 441
原创 python常用模块:time
在python中,与时间处理有关的模块包括:time、datetime以及calendar。这篇主要讲解time。1、时间表示形式 python中,通常有三种方式表示时间:时间戳(timestamp)、元组(struct_time)、格式化的时间字符串(Format String)。由于python中的time模块实现主要是调用C库,所以各个平台可能有所不同。UTC时间协调时即格林威...
2018-04-07 14:16:07 250
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人