爬虫
文章平均质量分 71
chenzao123
All growth is a leap in the dark
展开
-
Python3爬虫开发存储数据的几种必知必会
python存储数据简述 在实际开发过程中,会遇到数据存储的问题,我们需要针对不同的项目背景和开发需求采用不同的存储方式,从而满足项目开发需求和提高我们学习和工作效率。1. txt文件存储2. csv文件 csv(comma-separated values) -->逗号分隔值 文件以纯文本形式存储表格数据(数字和文本),在windows下可以用excel打开,cs...原创 2018-03-08 18:10:08 · 2868 阅读 · 0 评论 -
python3个人爬虫之:BeautifulSoup学习心得
一 Beautiful Soup的介绍 官网介绍:Beautiful Soup是一个可以从HTML或者XML文件中提取数据的Python库,能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,Beautiful Soup 会帮你节省数小时甚至数天的工作时间。 简而言之:就是一种强大的解析工具,帮助我们从网页中提取数据时提高效率。 【tips】: BeautifulSoup...原创 2018-03-01 17:22:19 · 873 阅读 · 0 评论 -
python3爬虫Selenium学习心得
一. 介绍 Selenium是一个Web自动化测试工具,支持多种编程语言,支持跨浏览器的自动化测试工具。 Selenium在爬虫中一般应用在动态网页的内容经过加密后,并且JavaScript代码混淆,肉眼很难读取完成。这种情况下使用selenium来模拟浏览器解析Javascript, 再爬取被解析以后的内容。python版的selenium官方文档。二 使用 1. demo演示 ...原创 2018-03-09 19:03:38 · 812 阅读 · 0 评论 -
python爬虫Requests库:学习心得
一 Requests的介绍 requests官网 爬取网页最好的python库,官网描述:Requests is an elegant and simple HTTP library for Python, built for human beings.二 安装方法 直接使用:pip install requests三 Requests基本使用 1. Requests库的7个...原创 2018-03-05 18:25:28 · 1731 阅读 · 0 评论 -
python爬虫中正则表达式学习心得以及典型实例
一 正则表达式简介 regular expression --> 用来简洁表达一组字符串的表达式 主要用于:文本处理 --> 如(表达文本类型的特征,同时查找或替换一组字符串,匹配字符串的全部或部分)二 正则表达式常用操作符操作符描述操作符描述\w匹配字母数字及下划线^匹配字符串开头\W匹配非字母数字下划线$匹配字符串末尾\s匹配任意空白字符,等价于[\t\n\f].匹配任...原创 2018-03-06 00:03:15 · 1005 阅读 · 0 评论 -
python3如何获取网页中使用了base64编码的图片
一. Base64介绍 Base64是一种用64个字符来表示任意二进制数据的编码方法, 常用在于URL, Cookie, 网页中传输少量二进制数据。二. base64图片示例 以某一网站上的验证码为例,这是一张进行了Base64编码的PNG图片。 示例网站地址 这张验证码图片,并不是从url加载过来, 而是通过base64编码嵌入在网页中。 查看base64...原创 2018-04-07 16:28:08 · 7715 阅读 · 2 评论