web crawler
Mr-Cat伍可猫
不会编程的文科生不是一个好的数学家
展开
-
python 网络爬虫(一)
此系列博文是朕在学习网络爬虫课程中的笔记,供自己复习和大家参考网络爬虫首先需要爬虫工具,初学者先使用requests工具,关于requests可以参考here,引用彼博主的一句话 “requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多” 以下以老师上课讲的爬取各个省份邮编为例,先放总的代码,再逐步解释:import requestsimport...原创 2018-05-27 02:02:03 · 355 阅读 · 0 评论 -
selenium webdriver你使用的是不受支持的命令行标记
在安装selenium 后,使用webdriver写一段简单的用于打开百度网页的代码,如下:from selenium import webdriverbrowser = webdriver.Chrome()browser.get('http://www.baidu.com/')结果出现“你使用的是不受支持的命令行标记,,,”原因:安装的google chrome 和chr...原创 2018-07-03 23:54:13 · 2368 阅读 · 0 评论 -
网络爬虫---json编码和解码
Json是JavaScript Object Notation 类似于XML,但比XML更小、更快、更易解析 举例,建立一个字典obj = {'one':1,'two':[1,2,3]}#建立字典encoded = json.dumps(obj)#解码decoded = json.loads(encoded)#编码print(type(encoded))print(encoded)...原创 2018-06-10 22:12:34 · 815 阅读 · 0 评论 -
python dir函数查看函数名
自定义一个类,并保存为test.py 通过dir可以查看类Car下的函数class Car(): def __init__(self,a,b): self.a = a self.b = b def car_one(self): print('this is %s car'%self.a) def car_two(sel...原创 2018-06-10 19:24:15 · 814 阅读 · 0 评论 -
CSS选择器
本来想写一下笔记的,但是已经有一个人写的很详细了,大家一起参考他/她的吧: http://www.w3school.com.cn/css/css_selector_class.asp 里面有很多课程的原创 2018-06-10 00:16:21 · 162 阅读 · 0 评论 -
python matplotlib contour画等高线图
以z=x^2+y^2为例#导入模块import numpy as npimport matplotlib.pyplot as plt#建立步长为0.01,即每隔0.01取一个点step = 0.01x = np.arange(-10,10,step)y = np.arange(-10,10,step)#也可以用x = np.linspace(-10,10,100)表示从-1...原创 2018-06-13 13:34:27 · 91835 阅读 · 25 评论 -
python re.match、re.search以及re.findall的区别
第一部分re.match()re.match(a,b),a放正则表达式(regular expression),b放要匹配的字符串。re.match总是从字符串的第一个字符(包括数字)开始匹配,且只匹配完一次后就结束,如果不是第一个字符则返回noneimport re #导入re模块s = '0www.weather.com' #字符串,我在第一个位置加了数字0pt = r'w...原创 2018-06-14 22:15:05 · 4926 阅读 · 2 评论 -
python正则表达式
在这里我主要讲通过视频课程学的东西,因为其他的有博主已经写的很好很好了,比如看到的这两篇:唯心不易、我当道士那些年原创 2018-06-14 21:44:59 · 167 阅读 · 0 评论 -
python正则表达式
在这里我主要讲通过视频课程学的东西,因为其他的有博主已经写的很好很好了,比如看到的这两篇:唯心不易、我当道士那些年原创 2018-06-14 21:40:54 · 156 阅读 · 0 评论 -
.bat文件(%~dp0)和call、echo批处理环境变量
定义:.bat文件即batch,批处理文件 百度百科的定义:批处理(Batch),也称为批处理脚本。顾名思义,批处理就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用于DOS和Windows系统中。批处理文件具有.bat或者.cmd的扩展名详细~的意思是扩展,变量扩充,相当于把相对路径转换到绝对路径 %0表示批处理文件本身,比如有一个文件demo.bat位于E:/t...原创 2018-06-14 14:37:07 · 6961 阅读 · 0 评论 -
python time.time()计算代码运行时间
计算一个代码跑多久import timestart = time.time()xxxxxxend = time.time()running_time = end-startprint(running_time)原创 2018-06-13 16:32:45 · 60326 阅读 · 3 评论 -
if xxx.strip()函数的使用
strip()函数可以去掉句子前后的空格,\n,\t等(换行,回车),保持句子整洁。a = ' \n this is a test file \t ' #句子有空格和换行以及回车b = ' \t \n' #句子除了换行空格和回车外没有其他字符 if a.strip(): ...原创 2018-06-12 21:42:10 · 3186 阅读 · 0 评论 -
网络爬虫--SAX处理xml
使用SAX处理xml 实际上有一个固定的框架,即标签开始,标签结束,文本处理。以下面例子讲解 出来book.xml<?xml version="1.0" encoding="ISO-8859-1"?><bookstore> <book> <title lang="eng">Harry Potter&am原创 2018-06-12 21:32:06 · 354 阅读 · 0 评论 -
python threading 多线程
举例:import threadingdef thread_func(x): print('%d\n' % (x*100))threads = []for i in range(5): #5个线程 threads.append(threading.Thread(target = thread_func, args = (100,)))#100后面一定要有逗号...原创 2018-06-05 13:26:59 · 424 阅读 · 0 评论 -
网络爬虫 --DOM处理XML
例题1.通过xml找到根的名字 一个名为book.xml的文件&lt;?xml version="1.0"?&gt;&lt;bookstore&gt; &lt;book&gt; &lt;/book&gt; &lt;book&gt; &lt;/book&am原创 2018-06-11 11:12:45 · 291 阅读 · 0 评论 -
python网络爬虫---selenium的使用
selenium使用需要先安装chrome和chromedriver.exe 见:linux安装google chrome 和 selenium webdriver你使用的是不受支持的命令行标记 这两篇文章 (由于还在审核,所以就不能贴链接了)例1,打开百度首页from selenium import webdriverbrowser = webdriver.Chrome()br...原创 2018-07-04 01:12:19 · 465 阅读 · 0 评论