爬虫
Levi_wlx
这个作者很懒,什么都没留下…
展开
-
python爬虫学习之路(3)——正则表达式(笔记)
定义正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的特定字符组成一个规则字符串,这个规则字符串用来表达对目标字符串的一种过滤逻辑。注意正则表达式字符串需要经过两次转义,这两次转义分别是“字符串转义”和正则转义。常见正则字符与含义模式描述模式描述.匹配任意字符,除换行符\s匹配空白字符*匹配前一个字符0次或多次\S匹配任何非空白字符...原创 2020-01-06 22:07:11 · 190 阅读 · 0 评论 -
python爬虫学习之路(2)——selenium
浏览器渲染引擎爬虫中有一种调用浏览器渲染引擎的爬取方法。就是模拟真正的上网方式去爬取html内容。这种方式不仅能够爬取静态网页的内容,还能爬取动态网页的内容。SeleniumSelenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,浏览器自动按照脚本代码做出单击、输入、打开、验证等操作,就像真正的用户在操作一样。注意新版本中使用Selenium调用浏览其...原创 2020-01-01 17:29:23 · 378 阅读 · 0 评论 -
windows10下用pycharm安装wordcloud
pycharm中找不到wordcloud的安装包,但可以找到matplotlib的安装包。看网上教程,windows若何安装wordcloud,先安装matplotlib,后安装wordcloud。1.在pycharm的setting中找到下图:2. 在单击叉号,输入matplotlib,然后勾选Specify version,选择和你python版本对应的matplotlib版本...原创 2020-01-01 14:40:21 · 8945 阅读 · 6 评论 -
爬取数据后,保存数据编码错误
爬取时没问题,保存时有问题。源码如下:import csvlist = ['房源名称','房源类型','房价信息','评价数量']with open('./Data/test.csv','a+',newline='') as csvfile: w = csv.writer(csvfile) w.writerow(list) #写入多行 w.writerows...原创 2019-12-29 23:19:22 · 279 阅读 · 0 评论 -
Python爬虫学习之路(1)——静态网页
前言没啥说的,一句话就是想学。有人说程序员的寿命不超过35,但作为一个过完年就30岁的我,就是不服,不信,不想任命。另外,我觉的学习,真的不一定就得为了就业,或者为了创造价值和财富,我就是想能学到一点儿知识,就是想万一哪天能用到。我是做测控设备的软件开发,用的是Labview,好多人应该都不知道这种语言。Labview入门很简单,上手很快,各种串口,网口随便通讯。(扯远了。。)有一天,经理让公...原创 2019-12-29 18:58:50 · 579 阅读 · 0 评论