爬虫
文章平均质量分 58
竹杖蓑衣客
技术菜鸟
展开
-
ConnectionError
描述:爬取TED网站页面主题和网址方法:requests + bs4问题:(1)爬取第一页还没问题,第二页出现如下显示:(2)技术菜鸟的做法就是百度,然后试试,先运行然后再学习;添加timeout=(timeout=(3,7))def getHtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0'} page =原创 2020-05-14 20:33:27 · 1942 阅读 · 0 评论 -
Python爬取“”中国最好大学排名”,
源代码参考北京理工大学公开课《Python网络爬虫与信息提取》中的“中国大学排名爬虫”源代码基础上:(1)添加headers;(2)观察该网站不同年份网址大同小异,所以可以选择(2016-2019)年的任意年直接爬取对应年份的数据。(3)确定每次爬取“前多少所学校信息”,即前多少名。import requestsfrom bs4 import BeautifulSoupimport...原创 2020-02-15 21:06:18 · 1488 阅读 · 0 评论 -
chromedriver 的安装及路径问题
chromedriver 的安装及路径问题问题:selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’ executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home解决办...原创 2018-11-18 17:45:46 · 13169 阅读 · 0 评论 -
详细流程解决Python安装Scrapy遇到的问题
环境:Python 3.7 + Win 7安装方法:pip install Scrapy问题如下:下载安装:Microsoft Visual C++ (具体可在官网下载)继续安装 .Net Frameword 4.6安装完成 “pip install Scrapy”依旧错误,为此重启好几遍依旧没有效果;参考:https://blog.csdn.net/qinlinghesh...原创 2018-11-25 15:55:04 · 138 阅读 · 0 评论 -
Scrapy安装(续)及验证否安装成功**
Scrapy安装(续)及验证否安装成功问题1:Consider using the --user option or check the permissions.修改为:pip install --user scrapy问题2: The script scrapy.exe is installed in ‘C:…\Roaming\Python\Python37\Scripts’ which...原创 2019-03-31 11:44:28 · 866 阅读 · 0 评论 -
BS4爬取电影天堂的下载地址并保存至csv文件
问题:爬取电影天堂最新的电影,爬取结果只有当页数据的一半。跪求大神帮忙指出问题?代码如下:from bs4 import BeautifulSoupimport requestsimport timeimport csvdef get_Html(url_f):# 1、获取网页信息headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT ...原创 2019-04-11 19:34:45 · 2988 阅读 · 0 评论 -
BS4爬取电影天堂的下载地址并保存至csv文件(一)
修改:(1)修改了结果中存在乱码的问题;# coding=utf-8import requestsfrom bs4 import BeautifulSoupimport timeimport csvdef getHtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv...原创 2019-05-23 16:00:53 · 2680 阅读 · 0 评论 -
爬取股票信息
过程:1、从“东方财富网”获取股票列表;2、根据获取的列表从“百度股票”获取相关信息;3、存储import requestsfrom bs4 import BeautifulSoupimport reimport bs4import traceback#1、获取URL对应的页面,返回一个空字符串作为语句def getHtmlText(url): try: ...原创 2019-07-30 20:13:04 · 1326 阅读 · 1 评论