- 博客(4)
- 收藏
- 关注
原创 爬取百度贴吧图片
贴吧图片遍历 环境 系统:win7、python27、 工具:pycharm Python模块:urllib、urllib2、xpath 需求 爬取任意贴吧指定页面的图片并保存的本地 需求分析 以李毅吧为例: 访问url地址:https://tieba.baidu.com/f?kw=%C0%EE%D2%E3&fr=ala0&tpl=5,后面的参数&fr=ala0&tpl=
2017-08-16 22:04:17
516
原创 xpath插件
概述 xpath 啊,一门在xml文档中查找信息的语言,可以在xml中对元素和属性执行遍历。 xpath使用路径表达式选择xml中的节点和节点集,这些表达式和平时我们电脑中的文件系统表达式类似。 xpath内置函数 xpath有100多个内置函数,这些函数用于字符串、数值、日期和时间比较。节点、Qname处理、序列、逻辑处理等等 xpath节点 xpath中有七种类型的节点:元素、属性
2017-08-12 09:54:35
486
原创 requests爬取小说
爬虫的小步骤: 1.url解析 2.发送请求 3.接收返回 4.进行解析 5.存储 小试牛刀 需求: 将国风中文网制定页的小说的题目、作者、最近更新章节和时间抓取下来保存到本地 开始了 小伙伴们,今天我们用的利剑是requests、xpath 第一步:导入模块 import requests from lxml import etree import json 第二步
2017-08-11 15:10:52
864
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅