python BeautifulSoup爬虫
文章平均质量分 82
top_beyond
自动化工程师正在向爬虫进军
展开
-
一.BeautifulSoup 多进程抓取智联招聘信息,并且存储到mongodb
# coding:utf-8import reimport requestsimport urllib2import datetimefrom bs4 import BeautifulSoupfrom pymongo import MongoClientfrom multiprocessing import Pool#开启数据库cn=MongoClient('localhost原创 2017-06-30 11:54:47 · 966 阅读 · 0 评论 -
二.BeautifulSoup多线程下载百思不得姐图片
#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport threadingfrom bs4 import BeautifulSoupimport reimport os,timeimport Queueclass get_Url(): def原创 2017-06-30 13:32:38 · 866 阅读 · 0 评论 -
三.BeautifulSoup用法大全
#coding:utf-8import HTMLParserfrom selenium import webdriverimport time,os,requests,xlwt,xlrdfrom lxml import etreefrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef url_do(path,jo原创 2017-06-30 13:47:35 · 394 阅读 · 0 评论 -
四.BeautifulSoup爬取51job任意职位并且存储到mongodb
#coding:utf-8import requestsimport reimport urllib2from pymongo import MongoClientfrom bs4 import BeautifulSoup#抓取51job相关职位信息def get_url(): #连接mongo数据库 cn=MongoClient(host='127.0.0.1',原创 2017-06-30 13:50:26 · 1144 阅读 · 0 评论 -
五.BeautifulSoup大众点评爬取店铺信息,存储到mongodb
#coding:utf-8from pymongo import MongoClientimport requests,refrom multiprocessing import Poolfrom bs4 import BeautifulSoupimport pymongofrom matplotlib import pyplot as plt#开启数据库cn=MongoClien原创 2017-06-30 13:53:39 · 1876 阅读 · 0 评论 -
六.Python爬虫Beautiful Soup的用法
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beauti原创 2017-07-07 09:29:23 · 261 阅读 · 0 评论