爬虫
平原2018
大模型、知识库、智能问答,需要帮助,请留言或者私信
展开
-
python3 对比urllib 和BeautifulSoup 分别抓取51job内容
一、用urllib 爬取51jobimport urllibfrom urllib.request import urlopen,quotefrom urllib import requestimport randomimport reimport chardetimport xlwtcount =0# 设置一个函数,只用来获取网页内容def getHtml(url): ...原创 2018-06-06 20:52:56 · 911 阅读 · 0 评论 -
Python 爬虫scrapy 框架的安装教程
Scrapy框架 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web...翻译 2018-06-08 10:09:26 · 528 阅读 · 0 评论 -
用selenium模拟登录百度
仅供学习参考 下面要输入自己的用户名和密码from selenium import webdriverimport timefrom selenium.webdriver.common.action_chains import ActionChainsdiver = webdriver.Chrome()diver.maximize_window()url = "https://w...原创 2018-07-01 13:44:46 · 1181 阅读 · 0 评论 -
用selenium 爬取世纪佳缘信息
仅供参考,以学习为主 一、用selenium获取用户的个人连接地址,并保存到excel中 脚本名:url.pyimport requestsfrom bs4 import BeautifulSoupimport chardetimport randomimport openpyxlfrom openpyxl import load_workbookimport refrom ...原创 2018-07-01 13:56:00 · 1280 阅读 · 0 评论 -
爬虫获取:解决动态加载数据和frame框架问题
仅供学习参考 以网易云排行榜为例from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get('https://music.163.com/#/discover/toplist')driver.maximize_window()# # 方法一# # 获取frame## 直接切换到...原创 2018-07-01 13:59:57 · 5925 阅读 · 0 评论 -
爬虫的编码解码
python3 对百度首页内容进行解码编码import requestsimport chardet# decode: 解码# encode: 编码r = requests.get('https://www.baidu.com')# 获取对象的编码格式 chardetcode = chardet.detect(r.content)['encoding']# 获取内容# ...原创 2018-06-28 10:33:09 · 2299 阅读 · 0 评论