爬虫
繁星、晚风
这个作者很懒,什么都没留下…
展开
-
正则表达式快速入门
提取字符(串)有时我们需要从一个字符串中获取一段内容,这段内容可能是一个字符也可能是一段字符串,如果用逐字对比遍历的话不仅耗时耗力而且还容易出错。那么这个时候我们就可以用到正则表达式中的字符匹配功能。正则表达式为我们提供了 4 种字符匹配的方法,见下表:预定义字符所谓预定义字符就是正则表达式中为我们预留的专门用来匹配格式化内容的字符,例如匹配数字用的\d和匹配空白符的\s等等...原创 2020-03-26 00:47:25 · 365 阅读 · 0 评论 -
用xpath获取html源码
from lxml import htmlimport requestsurl = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'res = requests.get(url)tree = ...原创 2020-03-26 00:12:10 · 2522 阅读 · 0 评论 -
python从mysql数据库查询数据
Python查询Mysql使用fetchone()方法获取单条数据,使用fetchall()方法获取多条数据。 fetchone():该方法获取下一个查询结果集。结果集是一个对象 fetchall():接收全部的返回结果行。 rowcount:这是一个只读属性,并返回执行execute()方法后影响的行数。 1:使用fetchone()方法获取结果集impo...转载 2018-08-30 18:40:34 · 30330 阅读 · 1 评论 -
爬取场库网站遇到的问题
采用解析网页源码的方式 然后通过xpath表达式去匹配视频的信息:标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。 我在匹配这些信息时遇到两大问题: 第一个问题:获取到网页源码之后,根本找不到视频的url,因为视频是通过js来播放的。 很巧的是我发现了播放视频的关键代码。结果是这样的: 用了xpath表达式和正则表...原创 2018-08-31 10:11:09 · 1211 阅读 · 0 评论 -
Python怎么爬取动态网页——如何使用selenium和PhantomJS
一、selenium和PhantomJS用法简介 selenium是web的自动化测试工具,类似按键精灵,可以直接运行在浏览器上。pip install seleniumPhantomJS是基于webkit的无界面浏览器,使用时,无需输入header等。需要从 phantomjs.org处下载,再将bin目录添加到环境变量path中。 1.1 基本使用流程"""基本...原创 2018-09-08 22:39:57 · 279 阅读 · 0 评论