python爬虫
flood_d
这个作者很懒,什么都没留下…
展开
-
python3.6.2下载网页的3种方法
这里运用了python里面的urllib作为网页的下载模块,三种方法的具体的代码如下:from urllib import request import http.cookiejar url="http://www.baidu.com"print ('第一种方法') response1=request.urlopen(url) print (response1.getcode()) print (l原创 2017-08-08 23:07:17 · 848 阅读 · 0 评论 -
window下面安装scrapy爬虫框架(python3.6+scrapy)
1.安装文件的准备 传送门2.具体的安装步骤 1)在命令行模式下面安装wheelpip install wheel2)在命令行模式下面安装lxml(下面whl文件的路径根据你的文件的路径具体些,我的就在当前的路径下面)pip install lxml-4.1.1-cp36-cp36m-win_amd64.whl3)在命令行模式下面安装PyOpensslpip install pyOpenSSL-原创 2017-11-13 17:56:55 · 522 阅读 · 1 评论 -
python3实现爬取淘宝页面的商品的数据信息(selenium+pyquery+mongodb)
1.环境须知 做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库,还需要安装MongoDB这个分布式数据库。 2.直接上代码 spider.pyimport re from config import * import pymongo from selenium import webdriver from selenium.com原创 2017-11-11 00:40:13 · 3146 阅读 · 1 评论 -
python3实现爬虫爬取今日头条上面的图片(requests+正则表达式+beautifulSoup+Ajax+多线程)
1.环境须知 做这个爬取的时候需要安装好python3.6和requests、BeautifulSoup等等一些比较常用的爬取和解析库,还需要安装MongoDB这个分布式数据库。 2.直接上代码 spider.pyimport json import re from _md5 import md5 from urllib.parse import urlencode from hashlib原创 2017-11-10 15:39:52 · 1713 阅读 · 2 评论 -
python3的爬虫抓取猫眼电影的信息(requests+正则表达式)
话不多说,直接上代码,版本为python3.6import json import requests from multiprocessing import Pool from requests.exceptions import RequestException import re #获取页面 def get_one_page(url): try: user_agent =原创 2017-11-09 17:29:57 · 1583 阅读 · 2 评论 -
python3中数据抓取的三种方法
1.方法简介 python3中从下载的网页中抓取数据主要的方法有三种,分别是正则表达式、BeautifulSoup、Lxml。三种方法各有特点。 正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。 BeautifulSoup是用Python写原创 2017-10-03 17:33:46 · 2843 阅读 · 0 评论 -
python3.X下面安装BeautifulSoup
1.安装文件准备 一台安装了python3.X的电脑,进入cmd查看,如下图 BeautifulSoup安装文件下载 安装文件下载链接 2.安装步骤 首先,将pip的路径添加的环境变量path中,这个大家可以搜搜想关的教程,我就不多介绍了。 接着,进入cmd,将目录转换到下载的bs4的安装包目录下面 然后,使用pip进行文件的安装,命令如下 完成安装之后即可使用Beaut原创 2017-09-29 02:00:04 · 3123 阅读 · 0 评论 -
用python写网络爬虫-1.网络爬虫简介
1.网络爬虫简介整合python代码(版本python3.6)import re import queue import urllib.parse import urllib.robotparser import time from urllib import request from datetime import datetimedef download(url, user_agent="wsa原创 2017-09-25 01:20:50 · 422 阅读 · 0 评论 -
python3.6.2实现的简单爬虫爬取百度百科
话不多说,直接上代码 1.主程序代码from baike_spider import url_manager, html_downloader, html_parser,html_outputer class SpiderMain(object): def __init__(self): self.urls = url_manager.UrlManager()原创 2017-08-08 23:13:19 · 690 阅读 · 0 评论 -
python3实现爬虫,爬取移动端微博搜索的个股的财经博主相关的微博的文本、评论以及转发等信息。
1.环境须知 做这个爬取的时候需要安装好python3.6、requests、re以及xlwt模块。request主要是用于爬取页面信息,xlwt主要用于excel的交互,将爬取数据保存至excel,如果需要将数据保存至MongoDB,则需要添加与MongoDB数据库交互的模块。 2.直接上代码 spider.py import json import re import reques...原创 2018-06-20 11:09:57 · 2372 阅读 · 2 评论