- 博客(48)
- 收藏
- 关注
原创 一.lxml爬取百度贴吧图片
#coding:utf-8import requests,stringfrom lxml import etree#百度贴吧获取图片#主要使用lxml的etree.HTMLpath='E:\\os\\jianc'url = 'http://tieba.baidu.com/p/2166231880' #此处可以是任意一贴header = {'User-Agent':'Mozilla/5
2017-06-30 13:41:22
622
原创 一.selenium爬取好友QQ空间日志说说
#coding:utf-8from selenium import webdriverimport time,osimport xlrd,xlwtfrom xlutils.copy import copy#使用selenium#使用selenium的隐藏PhantimJS浏览器登陆账号后对内容获取#注意frame与iframe的格式框切换#driver = webdriver.Ph
2017-06-30 13:38:21
4209
原创 一.多进程爬取百思不得姐图片
#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport reimport os,timefrom multiprocessing import Process,JoinableQueueclass get_Url(): def __init__(se
2017-06-30 13:35:33
946
原创 二.BeautifulSoup多线程下载百思不得姐图片
#coding:utf-8import requestsfrom requests.exceptions import HTTPError, ConnectionErrorimport threadingfrom bs4 import BeautifulSoupimport reimport os,timeimport Queueclass get_Url(): def
2017-06-30 13:32:38
910
原创 一.玩转图灵机器人
#coding:utf-8import sys,requests,jsondef succesion(info): appkey="e5ccc9c7c8834ec3b08940e290ff1559" url="http://www.tuling123.com/openapi/api?key=%s&info=%s"%(appkey,info) content=reques
2017-06-30 11:59:13
430
原创 一.BeautifulSoup 多进程抓取智联招聘信息,并且存储到mongodb
# coding:utf-8import reimport requestsimport urllib2import datetimefrom bs4 import BeautifulSoupfrom pymongo import MongoClientfrom multiprocessing import Pool#开启数据库cn=MongoClient('localhost
2017-06-30 11:54:47
1004
原创 二.scrapy抓取百度新闻排行榜,并且推送到指定邮箱
#encoding=utf-8import scrapyimport requestsfrom pymongo import MongoClientfrom ..items import FirstoneItemimport smtplibfrom email.mime.text import MIMETextfrom .. import settingsimport time
2017-06-30 11:32:21
1350
原创 一.scrapy豆瓣登陆篇
方法一:暴力登陆:直接将登陆后的cookie提取出来,带着cookie请求数据,注意一点,header浏览器不要将登陆关闭,否则cookie会有变动cookie = {'ps': 'y', 'bid': 'VPb0WSOJ764', 'dbcl2': '"163088717:nZorm3cicLo"'} # 带着Cookie向网页发请求\headers = { 'Connec
2017-06-30 11:20:08
642
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅