- 博客(7)
- 资源 (3)
- 收藏
- 关注
原创 使用selenium爬取拉勾网
__author__ = '田明博'__date__ = '2019/10/20 8:39'from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as E...
2019-10-20 20:06:27 1033
原创 selenium报错
selenium定位时报错:selenium.common.exceptions.ElementClickInterceptedException: Message: Element <span class="pager_next "> is not clickable at point (635,697) because another element <div class...
2019-10-20 19:11:55 490
原创 表情包爬虫
一、同步爬虫import requestsfrom lxml import etreefrom urllib import requestimport osimport reimport timedef get_page_source(link): headers = { 'Referer': 'http://www.doutula.com/pho...
2019-10-12 20:25:18 443
原创 爬取古诗词网(使用正则)
一、正则使用正则表达式常用匹配规则:匹配某个字符串:text = 'hello'ret = re.match('he',text)print(ret.group())>> he以上便可以在hello中,匹配出he。点(.)匹配任意的字符:text = "ab"ret = re.match('.',text)print(ret.group())...
2019-10-11 14:25:20 710
原创 爬虫之全国天气最低的十个城市
__author__ = '田明博'__date__ = '2019/10/9 21:23''''获取所有城市的天气预报,按最低温度排名'''import requestsimport operatorfrom bs4 import BeautifulSoupimport matplotlib.pyplot as pltdef get_page(link): '''...
2019-10-10 13:54:29 620 2
原创 电影天堂爬虫
电影天堂会封IP,多次访问请使用代理池。__author__ = '田明博'__date__ = '2019/10/8 21:17'import requestsfrom lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:69.0) Gecko/...
2019-10-09 11:57:31 1048
原创 热播电影推荐
练习xPath,爬取豆瓣正在放映电影,获取电影信息,按评分对电影排序。import requestsfrom lxml import etreeimport operatordef get_text(): # 把源代码爬取下来 headers = { 'Referer': 'https://movie.douban.com/', ...
2019-10-08 18:06:33 609
数据结构线性表
2018-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人