Python网络爬虫
000
RomanticChopin
这个作者很懒,什么都没留下…
展开
-
Python3 使用 urllib 包访问Web网站
import urllib.request #引入程序包url="http://127.0.0.1:5000" #输入你要查询数据的网站,可以在引号里面更换网址html=urllib.request.urlopen(url) #打开网址为url的网址html=html.read() #读取该网址的...原创 2019-02-05 16:10:19 · 429 阅读 · 0 评论 -
python爬虫防止IP被封的一些措施(伪造User-Agent ,在每次重复爬取之间设置一个随机时间间隔 ,伪造cookies ,使用代理)
转载于:转载地址伪造User-Agent在请求头中把User-Agent设置成浏览器中的User-Agent,来伪造浏览器访问。比如:send_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch...转载 2019-08-02 11:25:43 · 5204 阅读 · 0 评论 -
python爬虫:BeautifulSoup库find_all ()、find()方法详解
find()和findAll()官方定义如下:findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)唯一区别: *find()返回的是第一个匹配的标签结果 *find_all()返回的是所有匹配结果的列表...原创 2019-08-08 12:57:17 · 12239 阅读 · 1 评论 -
python爬虫实战:爬取西刺代理网站,获取免费的代理IP
爬取的网站链接:西刺网站import requestsimport chardetimport randomimport timefrom bs4 import BeautifulSoupfrom telnetlib import Telnetimport progressbaruser_agent = [ "Mozilla/5.0 (compatible...原创 2019-08-04 15:08:00 · 853 阅读 · 0 评论 -
python爬虫:BeautifulSoup 库 的基本函数用法及框架
安装:Win平台: “以管理员身份运行”cmd 执行pip install beautifulsoup4Beautiful Soup 库的理解:Beautiful Soup 库解析器:Beautiful Soup 库的基本元素:基于bs4库的HTML内容遍历方法:下行遍历:so...原创 2019-08-03 19:41:06 · 630 阅读 · 0 评论 -
python爬虫:requests库的基本方法函数及运用框架
安装:Win 平台:“以管理员身份运行” cmd,执行 pip install requests小测:>>>import requests>>>r=requests.get("http://www.baidu.com")>>>print(r.status_code)200>>>r.text...原创 2019-08-03 17:07:52 · 377 阅读 · 0 评论 -
python爬虫实战:爬取中国大学排名网站的 2019年中国大学排名情况
爬取这个网页:软科中国最好大学排名2019#采用bs4--Beautiful库实现import requestsfrom bs4 import BeautifulSoupimport bs4#得到网页内容def getHTMLText(url): try: r = requests.get(url,timeout=30) r.rais...原创 2019-08-03 16:20:51 · 1520 阅读 · 0 评论 -
Python3 爬虫 之 增加csdn访问量 源代码(直接拿去就能用)
#需要Pycharm,然后安装相应的库,才能运行此代码,具体要安装的库,你看运行报错就行了import reimport timeimport randomimport requestsimport urllib.requestfrom bs4 import BeautifulSouphost = "https://blog.csdn.net"IPRegular = r"(([...原创 2019-02-12 13:02:59 · 889 阅读 · 2 评论 -
python爬虫实战:爬取股票信息,对上交所和深交所所有的股票信息进行搜集
要用到两个网站:1.获取所有股票的名称的网址(这里指上交所和深交所的股票)https://www.banban.cn/gupiao/list_sz.html2.获取单个股票的各类信息https://gupiao.baidu.com/stock/股票名称.html'''要用到两个网站:1.获取所有股票的名称的网址(这里指上交所和深交所的股票)https://www.b...原创 2019-08-07 20:40:47 · 5569 阅读 · 2 评论