自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 Python爬虫入门三之Urllib库的基本使用

那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面

2017-06-30 13:59:01 285

原创 Python爬虫入门二之爬虫基础了解

1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2017-06-30 13:58:17 192

原创 Python爬虫入门一之综述

大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。Python版本:2.7,Python 3请另寻其他博文。首先爬虫是什么?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,

2017-06-30 13:57:08 533 1

原创 五.BeautifulSoup大众点评爬取店铺信息,存储到mongodb

#coding:utf-8from pymongo import MongoClientimport requests,refrom multiprocessing import Poolfrom bs4 import BeautifulSoupimport pymongofrom matplotlib import pyplot as plt#开启数据库cn=MongoClien

2017-06-30 13:53:39 1876

原创 四.BeautifulSoup爬取51job任意职位并且存储到mongodb

#coding:utf-8import requestsimport reimport urllib2from pymongo import MongoClientfrom bs4 import BeautifulSoup#抓取51job相关职位信息def get_url(): #连接mongo数据库 cn=MongoClient(host='127.0.0.1',

2017-06-30 13:50:26 1144

原创 二.lxml用法大全

#coding:utf-8from lxml import etreetext = ''' first item second item third item fourth item fifth item '''#etree.parse('hello.html') 加载文档

2017-06-30 13:48:08 909

原创 三.BeautifulSoup用法大全

#coding:utf-8import HTMLParserfrom selenium import webdriverimport time,os,requests,xlwt,xlrdfrom lxml import etreefrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef url_do(path,jo

2017-06-30 13:47:35 396

原创 二.selenium爬取51job任意职位信息

#coding:utf-8import HTMLParserfrom selenium import webdriverimport time,os,requests,xlwt,xlrdfrom lxml import etreefrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef url_do(path,jo

2017-06-30 13:44:26 1198

原创 一.lxml爬取百度贴吧图片

#coding:utf-8import requests,stringfrom lxml import etree#百度贴吧获取图片#主要使用lxml的etree.HTMLpath='E:\\os\\jianc'url = 'http://tieba.baidu.com/p/2166231880' #此处可以是任意一贴header = {'User-Agent':'Mozilla/5

2017-06-30 13:41:22 591

原创 一.selenium爬取好友QQ空间日志说说

#coding:utf-8from selenium import webdriverimport time,osimport xlrd,xlwtfrom xlutils.copy import copy#使用selenium#使用selenium的隐藏PhantimJS浏览器登陆账号后对内容获取#注意frame与iframe的格式框切换#driver = webdriver.Ph

2017-06-30 13:38:21 4122

原创 一.多进程爬取百思不得姐图片

#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport reimport os,timefrom multiprocessing import Process,JoinableQueueclass get_Url(): def __init__(se

2017-06-30 13:35:33 914

原创 二.BeautifulSoup多线程下载百思不得姐图片

#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport threadingfrom bs4 import BeautifulSoupimport reimport os,timeimport Queueclass get_Url(): def

2017-06-30 13:32:38 866

原创 一.玩转图灵机器人

#coding:utf-8import sys,requests,jsondef succesion(info): appkey="e5ccc9c7c8834ec3b08940e290ff1559" url="http://www.tuling123.com/openapi/api?key=%s&info=%s"%(appkey,info) content=reques

2017-06-30 11:59:13 400

原创 一.BeautifulSoup 多进程抓取智联招聘信息,并且存储到mongodb

# coding:utf-8import reimport requestsimport urllib2import datetimefrom bs4 import BeautifulSoupfrom pymongo import MongoClientfrom multiprocessing import Pool#开启数据库cn=MongoClient('localhost

2017-06-30 11:54:47 966

原创 二.scrapy抓取百度新闻排行榜,并且推送到指定邮箱

#encoding=utf-8import scrapyimport requestsfrom pymongo import MongoClientfrom ..items import FirstoneItemimport smtplibfrom email.mime.text import MIMETextfrom .. import settingsimport time

2017-06-30 11:32:21 1312

原创 一.scrapy豆瓣登陆篇

方法一:暴力登陆:直接将登陆后的cookie提取出来,带着cookie请求数据,注意一点,header浏览器不要将登陆关闭,否则cookie会有变动cookie = {'ps': 'y', 'bid': 'VPb0WSOJ764', 'dbcl2': '"163088717:nZorm3cicLo"'} # 带着Cookie向网页发请求\headers = { 'Connec

2017-06-30 11:20:08 610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除