- Python 。
文章平均质量分 57
极光 .
这个作者很懒,什么都没留下…
展开
-
- Python HTML正文抽取(存储为JSON) [ 笔记 ]
抽取HTML后的内容,一般都会存储为JSON或者CSV格式。《Python爬虫开发与项目实战》一书中以小说阅读网为例,抽取出小说的标题、章节、名称和对应链接,那么为了保险起见,还是老老实实照着来吧 —— 在抽取之前,作者在书中特意强调了一点,http://seputu.com/是一个静态网站,它所有的标题章节名称都不是由JavaScript动态加载的,虽然我不明白作者为什么要特意强调这一点...原创 2018-07-24 11:07:09 · 9610 阅读 · 1 评论 -
- Python 多媒体文件下载(利用urllib) [ 笔记 ]
目录 语法说明 举个栗子 语法说明 urllib模块的urlretrieve()方法,可以直接远程数据下载到本地: 语法: urlretrieve(url, filename=None, reporthook=None, data=None, context=None) 参数 说明 url filename 指定了本地的存储路径,如果这里没有指定参...原创 2018-07-24 15:57:46 · 400 阅读 · 0 评论 -
- Python 文件读写 [ 笔记 ]
目录 打开文件 access_mode(文件模式)参数说明 buffering(文件缓冲区)参数说明 文件读取方法说明 文件写入方法说明 打开文件 一般在对文件进行IO操作之前,是需要先将文件打开 语法:open(file_name [, access_mode][, buffering]) 参数说明: file_name为文件的名称,这是一个必填的参数...原创 2018-07-19 13:46:53 · 230 阅读 · 0 评论 -
- Python HTTP请求的实现 [ 笔记 ]
目录 安装Requests库 GET请求 POST请求 响应码code和响应头headers的处理 请求超时设置 读取URL和下载网页内容,是每一个爬虫的必经之路。那么在阅读《Python爬虫开发与项目实战》一书得知,Python实现HTTP请求有三种方式—— urllib2/urllib httplib/urllib Requests 经书中例子对比发现,个人更偏好第三种请求...原创 2018-07-23 10:43:55 · 50944 阅读 · 2 评论