python爬虫
flood_d
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python3.6.2下载网页的3种方法
这里运用了python里面的urllib作为网页的下载模块,三种方法的具体的代码如下:from urllib import requestimport http.cookiejarurl="http://www.baidu.com"print ('第一种方法')response1=request.urlopen(url)print (response1.getcode())print (l原创 2017-08-08 23:07:17 · 925 阅读 · 0 评论 -
window下面安装scrapy爬虫框架(python3.6+scrapy)
1.安装文件的准备 传送门2.具体的安装步骤 1)在命令行模式下面安装wheelpip install wheel2)在命令行模式下面安装lxml(下面whl文件的路径根据你的文件的路径具体些,我的就在当前的路径下面)pip install lxml-4.1.1-cp36-cp36m-win_amd64.whl3)在命令行模式下面安装PyOpensslpip install pyOpenSSL-原创 2017-11-13 17:56:55 · 575 阅读 · 1 评论 -
python3实现爬取淘宝页面的商品的数据信息(selenium+pyquery+mongodb)
1.环境须知 做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库,还需要安装MongoDB这个分布式数据库。 2.直接上代码 spider.pyimport refrom config import *import pymongofrom selenium import webdriverfrom selenium.com原创 2017-11-11 00:40:13 · 3527 阅读 · 1 评论 -
python3实现爬虫爬取今日头条上面的图片(requests+正则表达式+beautifulSoup+Ajax+多线程)
1.环境须知 做这个爬取的时候需要安装好python3.6和requests、BeautifulSoup等等一些比较常用的爬取和解析库,还需要安装MongoDB这个分布式数据库。 2.直接上代码 spider.pyimport jsonimport refrom _md5 import md5from urllib.parse import urlencodefrom hashlib原创 2017-11-10 15:39:52 · 1835 阅读 · 2 评论 -
python3的爬虫抓取猫眼电影的信息(requests+正则表达式)
话不多说,直接上代码,版本为python3.6import jsonimport requestsfrom multiprocessing import Poolfrom requests.exceptions import RequestExceptionimport re#获取页面def get_one_page(url): try: user_agent =原创 2017-11-09 17:29:57 · 1673 阅读 · 2 评论 -
python3中数据抓取的三种方法
1.方法简介 python3中从下载的网页中抓取数据主要的方法有三种,分别是正则表达式、BeautifulSoup、Lxml。三种方法各有特点。 正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。 BeautifulSoup是用Python写原创 2017-10-03 17:33:46 · 2984 阅读 · 0 评论 -
python3.X下面安装BeautifulSoup
1.安装文件准备 一台安装了python3.X的电脑,进入cmd查看,如下图 BeautifulSoup安装文件下载 安装文件下载链接 2.安装步骤 首先,将pip的路径添加的环境变量path中,这个大家可以搜搜想关的教程,我就不多介绍了。 接着,进入cmd,将目录转换到下载的bs4的安装包目录下面 然后,使用pip进行文件的安装,命令如下 完成安装之后即可使用Beaut原创 2017-09-29 02:00:04 · 3246 阅读 · 0 评论 -
用python写网络爬虫-1.网络爬虫简介
1.网络爬虫简介整合python代码(版本python3.6)import reimport queueimport urllib.parseimport urllib.robotparserimport timefrom urllib import requestfrom datetime import datetimedef download(url, user_agent="wsa原创 2017-09-25 01:20:50 · 473 阅读 · 0 评论 -
python3.6.2实现的简单爬虫爬取百度百科
话不多说,直接上代码 1.主程序代码from baike_spider import url_manager, html_downloader, html_parser,html_outputerclass SpiderMain(object): def __init__(self): self.urls = url_manager.UrlManager()原创 2017-08-08 23:13:19 · 754 阅读 · 0 评论 -
python3实现爬虫,爬取移动端微博搜索的个股的财经博主相关的微博的文本、评论以及转发等信息。
1.环境须知 做这个爬取的时候需要安装好python3.6、requests、re以及xlwt模块。request主要是用于爬取页面信息,xlwt主要用于excel的交互,将爬取数据保存至excel,如果需要将数据保存至MongoDB,则需要添加与MongoDB数据库交互的模块。 2.直接上代码 spider.pyimport jsonimport reimport reques...原创 2018-06-20 11:09:57 · 2578 阅读 · 2 评论
分享