- 博客(16)
- 收藏
- 关注
转载 Python爬虫入门三之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面
2017-06-30 13:59:01 285
原创 Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。
2017-06-30 13:58:17 192
原创 Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。Python版本:2.7,Python 3请另寻其他博文。首先爬虫是什么?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,
2017-06-30 13:57:08 533 1
原创 五.BeautifulSoup大众点评爬取店铺信息,存储到mongodb
#coding:utf-8from pymongo import MongoClientimport requests,refrom multiprocessing import Poolfrom bs4 import BeautifulSoupimport pymongofrom matplotlib import pyplot as plt#开启数据库cn=MongoClien
2017-06-30 13:53:39 1876
原创 四.BeautifulSoup爬取51job任意职位并且存储到mongodb
#coding:utf-8import requestsimport reimport urllib2from pymongo import MongoClientfrom bs4 import BeautifulSoup#抓取51job相关职位信息def get_url(): #连接mongo数据库 cn=MongoClient(host='127.0.0.1',
2017-06-30 13:50:26 1144
原创 二.lxml用法大全
#coding:utf-8from lxml import etreetext = ''' first item second item third item fourth item fifth item '''#etree.parse('hello.html') 加载文档
2017-06-30 13:48:08 909
原创 三.BeautifulSoup用法大全
#coding:utf-8import HTMLParserfrom selenium import webdriverimport time,os,requests,xlwt,xlrdfrom lxml import etreefrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef url_do(path,jo
2017-06-30 13:47:35 396
原创 二.selenium爬取51job任意职位信息
#coding:utf-8import HTMLParserfrom selenium import webdriverimport time,os,requests,xlwt,xlrdfrom lxml import etreefrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef url_do(path,jo
2017-06-30 13:44:26 1198
原创 一.lxml爬取百度贴吧图片
#coding:utf-8import requests,stringfrom lxml import etree#百度贴吧获取图片#主要使用lxml的etree.HTMLpath='E:\\os\\jianc'url = 'http://tieba.baidu.com/p/2166231880' #此处可以是任意一贴header = {'User-Agent':'Mozilla/5
2017-06-30 13:41:22 591
原创 一.selenium爬取好友QQ空间日志说说
#coding:utf-8from selenium import webdriverimport time,osimport xlrd,xlwtfrom xlutils.copy import copy#使用selenium#使用selenium的隐藏PhantimJS浏览器登陆账号后对内容获取#注意frame与iframe的格式框切换#driver = webdriver.Ph
2017-06-30 13:38:21 4122
原创 一.多进程爬取百思不得姐图片
#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport reimport os,timefrom multiprocessing import Process,JoinableQueueclass get_Url(): def __init__(se
2017-06-30 13:35:33 914
原创 二.BeautifulSoup多线程下载百思不得姐图片
#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport threadingfrom bs4 import BeautifulSoupimport reimport os,timeimport Queueclass get_Url(): def
2017-06-30 13:32:38 866
原创 一.玩转图灵机器人
#coding:utf-8import sys,requests,jsondef succesion(info): appkey="e5ccc9c7c8834ec3b08940e290ff1559" url="http://www.tuling123.com/openapi/api?key=%s&info=%s"%(appkey,info) content=reques
2017-06-30 11:59:13 400
原创 一.BeautifulSoup 多进程抓取智联招聘信息,并且存储到mongodb
# coding:utf-8import reimport requestsimport urllib2import datetimefrom bs4 import BeautifulSoupfrom pymongo import MongoClientfrom multiprocessing import Pool#开启数据库cn=MongoClient('localhost
2017-06-30 11:54:47 966
原创 二.scrapy抓取百度新闻排行榜,并且推送到指定邮箱
#encoding=utf-8import scrapyimport requestsfrom pymongo import MongoClientfrom ..items import FirstoneItemimport smtplibfrom email.mime.text import MIMETextfrom .. import settingsimport time
2017-06-30 11:32:21 1312
原创 一.scrapy豆瓣登陆篇
方法一:暴力登陆:直接将登陆后的cookie提取出来,带着cookie请求数据,注意一点,header浏览器不要将登陆关闭,否则cookie会有变动cookie = {'ps': 'y', 'bid': 'VPb0WSOJ764', 'dbcl2': '"163088717:nZorm3cicLo"'} # 带着Cookie向网页发请求\headers = { 'Connec
2017-06-30 11:20:08 610
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人