python爬虫
Louis的日常
这个作者很懒,什么都没留下…
展开
-
pyppeteer使用时常见的bug及解决办法
背景最近时不时的会用到pyppeteer,一会儿是本地环境利用pyppeteer写个模拟浏览器的小脚本,一会儿是线上阿里云服务器上需要部署pyppeteer所写的脚本。中途遇到一些问题,最后都是通过goolge解决了。为了以后不再到处google,故写下此博客。问题一pyppeteer.errors.NetworkError: Protocol error Network.getCookie...原创 2019-10-18 16:31:58 · 8194 阅读 · 4 评论 -
python往mysql数据库中写入数据和更新插入数据
1. 连接mysqlimport pymysqldb = pymysql.connect(host=‘localhost’,user=‘root’, password=‘123456’, port=3306, db=‘spiders’)cursor = db.cursor()sql = ‘select * from students;’cursor.execute(sql)cursor...原创 2019-01-03 20:51:34 · 15227 阅读 · 3 评论 -
python模拟登陆--coding.net
import requestslogin_url = 'https://coding.net/api/v2/account/login'data = { 'account': 'codingfile', 'password': 'password', 'remember_me': 'false',}session = requests.session()session.post(...原创 2019-01-04 17:47:55 · 360 阅读 · 0 评论 -
进程,线程和协程的区别联系
1. 进程进程就是一个程序在一个数据集上的一次动态执行过程。进程由程序,数据集,进程控制块三部分组成。程序用来描述进程哪些功能以及如何完成;数据集是程序执行过程中所使用的资源;进程控制块用来保存程序运行的状态。2.线程一个进程中可以开多个线程,为什么要有进程,而不做成线程呢?因为一个程序中,线程共享一套数据,如果都做成进程,每个进程独占一块内存,那这套数据就要复制好几份给每个程序,不合理,所...转载 2019-01-05 12:32:27 · 253 阅读 · 0 评论 -
Scrapy中url去重原理分析
1. url及相关参数进行指纹加密scrapy/utils/request.pydef request_fingerprint(request, include_headers=None): """ Return the request fingerprint. The request fingerprint is a hash that uniquely ident...原创 2019-01-05 16:53:06 · 1993 阅读 · 1 评论 -
Scrapy源码分析(一) -- Request请求对象
前言最近工作不是很忙,所以空闲时间我就看看scrapy的源码。仔细琢磨了下源码,还是有不少感悟的,所以就利用博客记录下自己的感悟。import sixfrom w3lib.url import safe_url_stringfrom scrapy.http.headers import Headersfrom scrapy.utils.python import to_bytesfr...原创 2019-07-29 23:12:08 · 776 阅读 · 0 评论 -
记一次app爬虫在centos7中部署的经历
1. 项目介绍本爬虫主要是爬取 某视频app 指定vlogger号下的视频列表信息,所爬取到的数据经过一定的规则解析后存入MySQL数据库,并且需要每日至少爬取一次。本项目利用 mitmproxy 扮演中间人角色,截获手机app和服务器两者间的通信数据,经过一定的规则解析后便 调用 http api接口(数据写入MySQL的逻辑,是java的同事写了一个简单的后台,爬虫这边只负责爬取数据,然后 ...原创 2019-09-04 00:03:05 · 823 阅读 · 0 评论