2017年06月_top_beyond

转载 Python爬虫入门三之Urllib库的基本使用

那么接下来，小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面

2017-06-30 13:59:01 285

原创 Python爬虫入门二之爬虫基础了解

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

2017-06-30 13:58:17 192

原创 Python爬虫入门一之综述

大家好哈，最近博主在学习Python，学习期间也遇到一些问题，获得了一些经验，在此将自己的学习系统地整理下来，如果大家有兴趣学习爬虫的话，可以将这些文章作为参考，也欢迎大家一共分享学习经验。Python版本:2.7，Python 3请另寻其他博文。首先爬虫是什么？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，

2017-06-30 13:57:08 533 1

原创五.BeautifulSoup大众点评爬取店铺信息，存储到mongodb

#coding:utf-8from pymongo import MongoClientimport requests,refrom multiprocessing import Poolfrom bs4 import BeautifulSoupimport pymongofrom matplotlib import pyplot as plt#开启数据库cn=MongoClien

2017-06-30 13:53:39 1876

原创四.BeautifulSoup爬取51job任意职位并且存储到mongodb

#coding:utf-8import requestsimport reimport urllib2from pymongo import MongoClientfrom bs4 import BeautifulSoup#抓取51job相关职位信息def get_url(): #连接mongo数据库 cn=MongoClient(host='127.0.0.1',

2017-06-30 13:50:26 1144

原创二.lxml用法大全

#coding:utf-8from lxml import etreetext = ''' first item second item third item fourth item fifth item '''#etree.parse('hello.html') 加载文档

2017-06-30 13:48:08 909

原创三.BeautifulSoup用法大全

#coding:utf-8import HTMLParserfrom selenium import webdriverimport time,os,requests,xlwt,xlrdfrom lxml import etreefrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef url_do(path,jo

2017-06-30 13:47:35 396

原创二.selenium爬取51job任意职位信息

#coding:utf-8import HTMLParserfrom selenium import webdriverimport time,os,requests,xlwt,xlrdfrom lxml import etreefrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef url_do(path,jo

2017-06-30 13:44:26 1198

原创一.lxml爬取百度贴吧图片

#coding:utf-8import requests,stringfrom lxml import etree#百度贴吧获取图片#主要使用lxml的etree.HTMLpath='E:\\os\\jianc'url = 'http://tieba.baidu.com/p/2166231880' #此处可以是任意一贴header = {'User-Agent':'Mozilla/5

2017-06-30 13:41:22 591

原创一.selenium爬取好友QQ空间日志说说

#coding:utf-8from selenium import webdriverimport time,osimport xlrd,xlwtfrom xlutils.copy import copy#使用selenium#使用selenium的隐藏PhantimJS浏览器登陆账号后对内容获取#注意frame与iframe的格式框切换#driver = webdriver.Ph

2017-06-30 13:38:21 4122

原创一.多进程爬取百思不得姐图片

#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport reimport os,timefrom multiprocessing import Process,JoinableQueueclass get_Url(): def __init__(se

2017-06-30 13:35:33 914

原创二.BeautifulSoup多线程下载百思不得姐图片

#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport threadingfrom bs4 import BeautifulSoupimport reimport os,timeimport Queueclass get_Url(): def

2017-06-30 13:32:38 866

原创一.玩转图灵机器人

#coding:utf-8import sys,requests,jsondef succesion(info): appkey="e5ccc9c7c8834ec3b08940e290ff1559" url="http://www.tuling123.com/openapi/api?key=%s&info=%s"%(appkey,info) content=reques

2017-06-30 11:59:13 400

原创一.BeautifulSoup 多进程抓取智联招聘信息，并且存储到mongodb

# coding:utf-8import reimport requestsimport urllib2import datetimefrom bs4 import BeautifulSoupfrom pymongo import MongoClientfrom multiprocessing import Pool#开启数据库cn=MongoClient('localhost

2017-06-30 11:54:47 966

原创二.scrapy抓取百度新闻排行榜，并且推送到指定邮箱

#encoding=utf-8import scrapyimport requestsfrom pymongo import MongoClientfrom ..items import FirstoneItemimport smtplibfrom email.mime.text import MIMETextfrom .. import settingsimport time

2017-06-30 11:32:21 1312

原创一.scrapy豆瓣登陆篇

方法一：暴力登陆：直接将登陆后的cookie提取出来，带着cookie请求数据，注意一点，header浏览器不要将登陆关闭，否则cookie会有变动cookie = {'ps': 'y', 'bid': 'VPb0WSOJ764', 'dbcl2': '"163088717:nZorm3cicLo"'} # 带着Cookie向网页发请求\headers = { 'Connec

2017-06-30 11:20:08 610

Top_beyond的博客