爬虫
码农Robin
不会讲段子的厨子不是一个好的码农
展开
-
request库
request库requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。1、总体功能演示:eg1:import requestsresponse = requests.get("https://www.baidu.com")...原创 2019-04-04 09:55:02 · 989 阅读 · 0 评论 -
Selenium库
Selenium库1、Seleniumselenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上...原创 2019-04-04 09:55:45 · 844 阅读 · 1 评论 -
爬虫相关知识点
1、进程程序并不能单独地运行,只有将程序装载到内存中,系统为他分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别在于:程序是指令的集合,它是进程的静态描述文本;进程是程序的一次执行活动,属于动态概念。例如我们写一个hello程序,当这个程序在操作系统上运行的时候,操作系统会给我们一种假象,好像系统上就这一个程序在运行。程序看上去是独占的使用处理器,主存,和IO设备,处理器看上去就...原创 2019-03-27 14:38:59 · 177 阅读 · 0 评论 -
beautifulsoup库
beautifulsoup库eg1:from bs4 import BeautifulSouphtml = '''<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dorm...原创 2019-04-03 16:57:42 · 182 阅读 · 0 评论 -
PyQuery库
PyQuery库PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。1、初始化初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件字符串初始化eg1:html = '''<div> <ul> ...原创 2019-04-03 17:41:01 · 176 阅读 · 0 评论 -
request库
request库requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。1、总体功能演示:eg1:import requestsresponse = requests.get("https://www.baidu.com")...原创 2019-04-03 18:19:24 · 3910 阅读 · 0 评论