![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Enougme
搬砖仔!!!
展开
-
Selenium+PhantomJS的常用操作
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。下载PhantomJS:wget https://bitbu原创 2020-07-07 10:58:54 · 254 阅读 · 0 评论 -
爬虫-HTTP代理
前言:在进行爬虫操作时,因为待爬系统后端会进行限流操作,所以使用一个ip不断进行请求会造成ip被封,为针对这种反爬手段我们可以进行ip代理的方式。如何获取代理服务器?可以购买云服务器(亚马逊或者阿里云服务器)但自行搭建代理服务器的成本较高(可靠,可控),我们也可以通过google或者baidu找到一些免费服务器的网站:http://proxy-list.orghttp://free-proxy-list.nethttp://www.xicidaili.com…等操作步骤(以Scrapy框架为例原创 2020-08-16 19:35:22 · 780 阅读 · 0 评论 -
Python-爬取京东网站商品信息,并写入excel
from retrying import retryimport requestsfrom lxml import etreeimport timeimport osbase_url = "https://search.jd.com/Search?keyword=手机华为&enc=utf-8"if os.path.exists("JD.xlsx"): os.remove("JD.xlsx")def func(): return "请求失败"@retry(sto原创 2020-05-22 17:45:46 · 1716 阅读 · 0 评论 -
Python-爬取小说内容并下载
# 文章首页链接url = "https://www.17k.com/chapter/108821/3148523.html"def book_spider(): # 爬取并下载小说内容 import requests from bs4 import BeautifulSoup import time headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36原创 2020-05-20 10:30:51 · 324 阅读 · 0 评论 -
爬取新闻网站的财经信息
要爬取的新闻信息可以通过Ctrl+U快捷键查看页面的html源码,便于数据结构分析数据结构:类news_li下的h2标签下的a链接指定每个新闻的详情完整代码如下:#encoding:utf-8import requestsfrom pyquery import PyQuery as pqimport osimport datetimeheader = { "Re...原创 2020-04-24 11:25:05 · 477 阅读 · 0 评论 -
python爬取b站热门视频并写入Excel
#encoding:utf-8import requestsfrom lxml import etreeimport xlwtimport os# 爬取b站热门视频信息def spider(): video_list = [] url = "https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d6...原创 2020-04-01 16:27:01 · 413 阅读 · 0 评论