Python3爬虫
Python3爬虫个人笔记
llf_cloud
至繁归于至简
展开
-
re正则表达式
字符串查询匹配的函数: 函数 描述 re.match(reg, info) 用于在开始位置匹配目标字符串info中符合正则表达式reg的字符,匹配成功会返回一个match对象,匹配不成功返回None re.search(reg, info) 扫描整个字符串info,使用正则...原创 2018-05-03 16:00:20 · 704 阅读 · 0 评论 -
mysql命令笔记
mysql建表CREATE TABLE jokeji(id INT AUTO_INCREMENT PRIMARY KEY COMMENT ‘数据编号’,title VARCHAR(200) COMMENT ‘标题’,url VARCHAR(200) COMMENT ‘链接’,content text COMMENT ‘内容’,publish_time DATETIME COMMENT ...原创 2018-11-27 12:04:21 · 553 阅读 · 0 评论 -
python3之chardet判断编码
判断编码并解码html = '字符串'# 判断编码 并返回编码charset = chardet.detect(html)['encoding']print(charset)# 解码print(html.decode(charset))原创 2018-11-22 14:49:47 · 2947 阅读 · 2 评论 -
text/html和text/plain区别
Content-Type:用于定义用户的浏览器或相关设备如何显示将要加载的数据,或者如何处理将要加载的数据。text/html的意思是将文件的content-type设置为text/html的形式,浏览器在获取到这种文件时会自动调用html的解析器对文件进行相应的处理。text/plain的意思是将文件设置为纯文本的形式,浏览器在获取到这种文件时并不会对其进行处理。...原创 2018-11-21 10:00:46 · 1986 阅读 · 0 评论 -
selenium使用location定位元素坐标偏差
python+selenium+Chromedriver使用location定位元素坐标偏差使用xpath定位元素,用.location获取坐标值,截取网页截图的一部分出现偏差。之所以会出现这个坐标偏差是因为windows系统下电脑设置的显示缩放比例造成的,location获取的坐标是按显示100%时得到的坐标,而截图所使用的坐标却是需要根据显示缩放比例缩放后对应的图片所确定的,因此就出现了偏...原创 2018-11-20 21:55:58 · 9599 阅读 · 8 评论 -
Python3爬虫文件持久化
python3爬虫用json.dumps()将数据保存到文件中中文显示不正常def write_to_file(content): ''' 持久化保存到txt文件 :param content: 字典对象 :return: ''' # encoding ensure_ascii设置文件中的中文正常显示 with open('maoyanTo...原创 2018-11-05 17:35:27 · 242 阅读 · 0 评论 -
python3爬虫之安装和使用scrapy
环境:win10-64位、python3.6安装依赖安装lxml> pip install lxml安装zope.interface> pip install zope.interface安装wheelpip inatall wheel安装twisted在网站:h原创 2018-11-07 12:01:22 · 164 阅读 · 0 评论 -
python3之lxml、css和xpath
处理非标准的htmlimport lxml.htmlbroben_html = "<ul class=country&a原创 2018-11-05 17:36:26 · 1995 阅读 · 1 评论 -
python3之beautifulsoup4
文章目录beautifulsoup获取数据的三种方法遍历文档树搜索文档树css选择器beautifulsoup获取数据的三种方法遍历文档树################# 遍历文档树# 节点内容soup.p.string # 获取p标签的内容,如果tag只有一个navigablesting类型子节点,那么这个tag可以使用.string得到子节点内容,如果超过一个,返回None例...原创 2018-11-01 22:01:28 · 747 阅读 · 0 评论 -
python3爬虫之lxml的xpath二次匹配遇到的问题
'''python3.6lxml.xpath解析页面二次匹配问题'''from lxml import etreetext = '''<div> <ul id='a'> <li原创 2018-11-05 17:48:12 · 2552 阅读 · 0 评论 -
python3之requests
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。python版本支持:python2.7 | 3.4 | 3.5 | 3...原创 2018-10-31 09:35:42 · 165 阅读 · 0 评论 -
python fake_useragent
Useragent:(fake-useragent库可以随机得到一个UserAgent)安装:pip install fake-useragent使用:from fake_useragent import UserAgentua = UserAgent()ua.ie 随机得到一个ie的User Agentua.firefoxua.chromeua.random 随机一个UserAgent例:>...原创 2018-05-03 21:09:29 · 1624 阅读 · 0 评论 -
scrapy shell
进入scrapy shell使用scrapy内置的scrapy shell,Scrapy Shell需要您预装好IPython(一个扩展的Python终端)。您需要进入项目的根目录,执行下列命令来启动shell:scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/" 当您在...原创 2018-05-03 17:03:07 · 169 阅读 · 0 评论 -
bs4获取html中body中的所有子标签
html = """<!DOCTYPE html><html><head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0">原创 2019-03-18 10:48:56 · 4108 阅读 · 0 评论