python3.5爬虫
记录爬虫的点滴成长。
rosefunR
每次都多付出一点. 欢迎关注公众号《机器学习与算法之道》
展开
-
爬虫 user agent 汇总
爬虫需要切换 user agent,防止被反爬虫机制针对。user_agent_list = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3', 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) Appl原创 2021-02-28 17:14:40 · 2099 阅读 · 0 评论 -
python3爬虫(6):智能选择优质基金
智能选择优质基金1. 关于本项目 本项目希望能够通过每天爬取基金数据,通过一些金融知识或者机器学习模型,给出当天优质基金。2. 基金数据爬取 python3运行code中CrawlingFund.py 代码。 爬取网站:好买基金 https://www.howbuy.com/fund/fundranking 获取数据有,股票型,债券型,混合型,理财型,货币性,指数型,结构型,对冲型,QDII型基金,数据格式CSV文件。爬取的信息:基金代码,基金名称,日期,净值,近一周,近一月,近三月原创 2021-01-27 00:08:02 · 26725 阅读 · 1 评论 -
python3爬虫(5): Beautiful Soup介绍
1. 简介Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.安装方法:pip install beautifulsoup4网页解析器由于Beautiful Soup是对HTML文件进行提取数据,因此,需要安装网页解析器。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml: $ pip install lxml另一个可供选择的解析器是纯P原创 2021-01-26 22:12:31 · 425 阅读 · 0 评论 -
python获取论文的Bibtex格式
1. 简介批量从百度学术查询输入论文,获得相应论文的Bibtex格式,并保存。from bs4 import BeautifulSoupfrom selenium import webdriverimport time'''判断元素是否存在'''def isElementExist(driver, element): flag = True try: driver.find_element_by_xpath(element) return f转载 2021-01-01 19:59:04 · 1209 阅读 · 0 评论 -
python3爬虫(4):获取网易云音乐歌手所有歌曲及歌曲的精选评论
1. 需要的python包>pip install pycryptodome>pip install requests>>pip install lxml2. 实践1:爬取网易云平台的所有歌手id"""sources:https://github.com/wanhaiwei/wangyiyun/blob/master/get_all_singer.py"""import requestsimport reimport csvimport jsoncla原创 2020-11-14 10:49:30 · 3010 阅读 · 0 评论 -
python3爬虫2--网页源代码及图片提取
1、网页源代码提取import urllib.requestdef saveFile(data): path=r'G:\douban.out' f=open(path,'wb') f.write(data) f.close()url="http://www.douban.com"headers={'User-Agent':'Mozilla/5.0 (Windows原创 2017-12-09 14:08:53 · 2465 阅读 · 0 评论 -
python3爬虫(1)--简单网页源代码获取
1、直接获取 .read()/requests.get()1.1 输出Unicode格式import urllib.requestrequest=urllib.request.Request('http://www.baidu.com')response=urllib.request.urlopen(request)html=response.read()print(html)输出是Unic原创 2017-12-09 09:50:59 · 19800 阅读 · 0 评论 -
python爬取新闻 常用包newspaper
1、引言python爬取新闻常用的是newspaper。python3安装:pip3 install --ignore-installed --upgrade newspaper3k安装的时间略长。2、使用newspaper的包好难用啊,各种出现bug,已弃疗。3.其他包pip3 install scrapy参考:Automatic-news-原创 2018-01-28 15:04:59 · 4039 阅读 · 0 评论 -
python splinter基本操作
1、实现from splinter import Browser# from xvfbwrapper import Xvfbfrom selenium.webdriver.chrome.options import Options# 由于是在server上运行chrome,所以必须用一些模拟器# vdisplay = Xvfb()# vdisplay.start()# 这些设置原创 2018-01-17 20:58:44 · 4933 阅读 · 9 评论 -
抢票系统的简单实现
引言马上寒假了,想试试自己写一个抢票系统,占个坑。1、splinter>>> from splinter.browser import Browser>>> b = Browser(driver_name="chrome")>>> b.visit("http://www.qq.com")但是,运行第二行时出错,File "selenium\webdriver\com原创 2017-12-10 18:18:11 · 12443 阅读 · 1 评论