爬虫(数据采集)
Good_Luck_Kevin2018
越努力、越幸运
展开
-
网页中遇到的src="data:image/png;base64,xxxx"知识点了解
大家可能注意到了,网页上有些图片的src或css背景图片的url后面跟了一大串字符,比如:1234567background-image:url(data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAAkCAYAAABIdFAMAAAAGXRFWHRTb2Z0d2FyZQBBZG9iZSBJbWFnZVJlYWR5ccllPAAA...转载 2018-07-07 17:40:35 · 30610 阅读 · 1 评论 -
(原创)添加QQ好友日期爬虫01——总体思路
总体思路: 分析日期时间json ==》 分析请求所需信息 ==》获得Cookies==》解决token ==》逆向分析解决g_tk ==》获得所有好友uin ==》 获得所有好友添加时间 ==》存放 excel最近BZ在一家中小公司实习,没有多少活,偶逛自己的空间,看到了这个如图,于是有个大胆的想法( ̄▽ ̄)~*分析目标数据再想想,自己从初中开始用QQ,到现...原创 2018-09-08 19:29:04 · 377 阅读 · 1 评论 -
(原创)添加QQ好友日期爬虫02——模拟登陆拿Cookies
思路:通过selenium + chrome浏览器模拟登陆 注意项:切换登陆框架 (这里我先假设你已经安装好了模拟浏览器的环境了,配置好运行需要的环境了)进入登陆login_url = "https://i.qq.com/"browser = webdriver.Chrome()browser.get(login_url)*特别注意:登陆后一定要切换到登陆框...原创 2018-09-08 21:32:55 · 925 阅读 · 1 评论 -
(原创)添加QQ好友日期爬虫03——访问主页得到token
现在虽然有了cookies,但还是不能畅通无助,需要解决token,和g_tk;注意点:主页的编码有两种:utf-8,gbk 需要解码时"ignore",忽略部分解不了的源码token 验证token其实说的更通俗点可以叫暗号,在一些数据传输之前,要先进行暗号的核对,不同的暗号被授权不同的数据操作。 使用基于 Token 的身份验证方法,在服务端不需要存储用户的登录记录。大概的流程是...原创 2018-09-08 21:56:02 · 735 阅读 · 0 评论 -
(原创)添加QQ好友日期爬虫04——根据js加密原理,得到g_tk
再提一下之前看到得到g_tk的JavaScript函数:getACSRFToken:function(url) { url = QZFL.util.URI(url); var skey; if (url) { if (url.host && url.host.indexOf("qzone.qq.com") > 0) { ...原创 2018-09-08 22:16:14 · 647 阅读 · 0 评论 -
(原创)添加QQ好友日期爬虫05——写入excel
这里将要写入的字典类型info,写入excel主要是xlrd,xlrd,xlutils的应用,实现追加写入,存之前,先删后存os.remove(file_name) os.save(file_name)import xlrd import xlwt import xlutils from xlrd import open_workbookfrom xlutils.cop...原创 2018-09-08 23:02:22 · 225 阅读 · 0 评论 -
(原创)添加QQ好友日期爬虫06——链接各个功能板块,附总代码
主源码:# -*- coding=utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.by import Byimport requestsimport jsonimport timeimport chardetimport refrom urllib import parsefrom...原创 2018-09-08 23:22:53 · 499 阅读 · 0 评论