爬虫
文章平均质量分 74
123jinse
这个作者很懒,什么都没留下…
展开
-
python爬虫:爬取豆瓣图书保存为json格式
# -*-coding:utf-8-*- import requests import re from lxml import etree import json # 每本书的所有信息都是从详情页面获取 # 定义一个大列表,保存字典数据,每一个字典都满足json格式, # 但是组合在一起之后需要用列表来保存才满足json格式 allbks = [] for i in range(0, 7): ...原创 2018-04-23 11:22:56 · 1095 阅读 · 0 评论 -
Python爬虫:抓取智联岗位信息保存csv
from urllib.parse import urlencode import requests import re import csv from tqdm import tqdm from lxml import etree # 获取一页的HTMl def get_one_page(city, keyword, region, page): params = { ...原创 2018-04-23 10:59:15 · 872 阅读 · 0 评论 -
Python爬取豆瓣影评
import urllib.request import requests from lxml import etree from pyquery import PyQuery as pq import json headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik...原创 2018-04-17 12:38:51 · 477 阅读 · 0 评论 -
构造表单模拟登陆GitHub
1、输入登陆网址:url = https://github.com/login?return_to=%2Fjoin输入注册过的账号密码,登陆成功之后,查看post请求的session,查看需要提交的formdata表单,然后构造字典数据。2、观察发现除了authenticity_token之外,别的可以直接构造字典,authenticity_token这个比较复杂,查看源代码发现在一个hidden...原创 2018-04-23 13:16:00 · 361 阅读 · 0 评论 -
pyspider爬取统计局统计动态
#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-05-28 10:33:42# Project: tongjijufrom pyspider.libs.base_handler import *from lxml import etreeclass Handler(BaseHandler): crawl_conf...原创 2018-05-28 11:24:54 · 409 阅读 · 0 评论 -
pyspider爬取豆瓣延禧攻略短评和回应
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-08-30 15:08:10 # Project: yanxigonglve_douban from pyspider.libs.base_handler import * from lxml import etree class Handler(BaseHan...原创 2018-08-31 09:52:05 · 478 阅读 · 1 评论