爬虫
文章平均质量分 82
神坑教无心
这个作者很懒,什么都没留下…
展开
-
爬取携程信息
# -*- coding: utf-8 -*-"""Created on Mon May 7 15:18:17 2018@author: chens"""import urllib.requestfrom bs4 import BeautifulSoupimport pymysql.cursors'''目标:获取酒店名称和酒店星级'''url1 = 'http://ho...原创 2018-05-07 17:13:36 · 1999 阅读 · 1 评论 -
爬取微博(Ajax)
#coding:utf-8from urllib.parse import urlencodeimport requestsbase_url = 'https://m.weibo.cn/api/container/getIndex?'headers = { 'Host':'m.weibo.cn', 'Referer' : 'https://m.weibo.cn/u/2830...原创 2018-05-15 17:37:34 · 570 阅读 · 0 评论 -
分析Ajax爬取今日头条街拍美景
# -*- coding: utf-8 -*-import osimport reimport jsonimport requestsfrom urllib.parse import urlencodedef get_one_page(offset, keyword): ''' 获取网页html内容并返回 ''' paras = { ...原创 2018-05-15 21:50:14 · 426 阅读 · 0 评论 -
爬取12306车票信息(初级版本)
# coding=utf-8import requestsimport argparseimport datetimeimport reimport osimport jsonimport sslimport urllib.parsefrom collections import deque, OrderedDict# 获取每个站点的名字和对应的代码,并保存到本地filen...原创 2018-06-06 17:58:06 · 1237 阅读 · 0 评论 -
cookie保存到本地
Step1 : 没有cookie处理# -*- coding:utf-8 -*-import urllib.parseimport urllib.requesturl = "http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LlOFk"post...原创 2018-06-25 20:18:42 · 1915 阅读 · 0 评论