半吊子python全栈

日常更新

排序:
默认
按更新时间
按访问量

CSV 文件 写入引号 和 换行

问题:需要在csv文件中写入 双引号 和 换行 解决,在需要写双引号的地方在加一个双引号 进行转义,这一格的数据是必须用双引号括起来的, 参考文档:https://tools.ietf.org/html/rfc4180...

2018-11-09 18:48:50

阅读数:30

评论数:0

转载:备份chromedriver版本

chromedriver安装 直接使用PIP安装 1 pip install selenium 用浏览器浏览器的浏览器来测试 1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 browser.get...

2018-10-30 18:15:53

阅读数:12

评论数:0

1024程序员节 - 分享一个抖音视频下载程序

在网上调用别人的接口来实现的功能  import requests import execjs # 生成参数s def generateStr(a): js = ''' test = function(a) { var c = functi...

2018-10-24 15:16:29

阅读数:22

评论数:0

如何让你的Python爬虫采集得更快

如何让Python爬虫采集的更快,如何处理海量数据的下载是我们一直探索和研究的对象。下面是我们从数学角度给出的一些分析以及我们的一些经验分享。     假设线程数为n,线程中下载平均用时为td,线程中数据处理部分(纯计算)用时为tc。由于单个Python进程只能使用单CPU核心,因此总的数据处理...

2018-10-23 17:16:02

阅读数:47

评论数:0

如何突破网站对selenium的屏蔽

使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案,它通吃各种数据加载方式,能够绕过客户JS加密,绕过爬虫检测,绕过签名机制。它的应用,使得许多网站的反采集策略形同虚设。由于selenium不会在HTTP请求数据中留下指纹,因此无法被网站直接识别和拦截。 这是不是就意味着s...

2018-10-23 15:13:25

阅读数:285

评论数:2

android四大组件(详细总结)

android四大组件分别为activity、service、content provider、broadcast receiver。 一、android四大组件详解 1、activity (1)一个Activity通常就是一个单独的屏幕(窗口)。 (2)Activity之间通过Inten...

2018-10-11 18:46:08

阅读数:18

评论数:0

Android studio3.0打开Device File Explore(文件管理器)的方法(图文教程)

Android studio3.0打开Device File Explore(文件管理器)的方法 看到网上AS3.0新增加的查看手机文件的新功能,全部都是转载的,没有几个人心细的把如何打开的方法写下来,我找了好多地方才找到打开的方法,目前有如下两种种: 方法一: 点击 View &a...

2018-10-11 18:34:44

阅读数:81

评论数:0

采集小红书 数据 爬虫

最新版(2018年9月) 小红书(https://www.xiaohongshu.com/),号称拥有超过一亿用户的生活方式分享社区,其用户笔记内容涵盖吃穿玩乐买,涉及时尚、护肤、彩妆、美食、旅行、影视、读书、健身等各个生活方式领域,再加上社区每天产生数十亿次的笔记曝光,正如客户所言,其平台是集...

2018-09-29 16:43:48

阅读数:1293

评论数:2

百度指数 爬虫 更新版

current time: 2018.11.6 17.23 正常 昨天晚上有人跟我说百度指数更新了,今天看了下,更新了下代码 个人感觉是降低了难度,极大的减少了请求次数。这一次是直接根据参数 , 在js中生成数字 如果需要获取一段的平均值,只需要请求 http://index.baidu...

2018-09-28 17:51:06

阅读数:701

评论数:2

抓手机app可能出现的问题及解决方式

概况:看了会大佬调试各种app,写各种插件,然后发现有一个很好的办法 1.当我们使用fiddler进行抓取https包的时候,有可能安装了证书也获取不到,这个时候,可能就是服务器端进行了验证,这个时候,大佬们直接使用--- 第一、使用Xposed拦截系统的证书校验功能,这个网上有大神给出了ho...

2018-09-10 18:36:27

阅读数:131

评论数:0

Scrapy 调用讯代理动态转发BUG 解决

问题:最近找一些代理来使用 , 用到了讯代理的动态转发,使用requests能正常使用,但是使用Scrapy框架调用的时候,怎么都调用不了。异常是没有特定的头部信息,但是请求是 解决:先使用抓包工具,查看程序发出去的请求的头信息,发现是没有我添加的头部信息,先是觉得可能自己加错误了,但尝试几次,...

2018-09-07 16:59:04

阅读数:215

评论数:5

HTML,JS禁止鼠标右键、禁止全选、复制、粘贴的方法

禁止鼠标右键、禁止全选、复制、粘贴; oncontextmenu事件禁用右键菜单;  js代码: document.oncontextmenu = function(){ event.returnValue = false; } // 或者直接返回整个事件 document.onco...

2018-09-07 15:02:34

阅读数:50

评论数:0

汽车之家爬虫(autohome)

项目的请求url类型https://k.autohome.com.cn/detail/view_01cezq86y568r3ad1m6ws00000.html?st=4&piap=0|3170|0|0|1|0|0|0|0|0|1#pvareaid=2112108   以...

2018-08-23 18:13:57

阅读数:526

评论数:0

pytesseract psm 选项参数

最近写*车之家的爬虫,遇到动态,扭曲的自定义字符,以前直接比对不变的字符部分已经不行了,想了半天,对字符的操作不是很了解,所以就想到用orc来直接识别好了 遇到问题,使用pytesseract进行操作的时候,添加了中文的语言的选项,但是不添加psm参数时,识别不出来。经过一番查找 找到 应该加...

2018-08-17 11:40:34

阅读数:291

评论数:0

自定义字符反爬

  最近临时受命,要针对采集我司网站的爬虫进行反制。虽然不太熟悉这个领域,但既然分到咱这儿了,那就上呗,有啥说的,谁让咱是“全栈工程师”呢(牛逼吹的大了点)。 原本公司已经有了一套字体反爬的机制,但效果还是不很理想。花了一周的时间进行研究,最终在现有反爬基础之上,总结了本文要讲的方案。 说是...

2018-08-16 17:11:04

阅读数:195

评论数:0

基于Node.js实现一个小小的爬虫

1.本次爬虫目标: 从拉钩招聘网站中找出“前端开发”这一类岗位的信息,并作相应页面分析,提取出特定的几个部分如岗位名称、岗位薪资、岗位所属公司、岗位发布日期等。并将抓取到的这些信息,展现出来。   初始拉钩网站上界面信息如下:   2.设计方案: 爬虫,实际上就是通过相应的技术,抓...

2018-08-10 18:06:28

阅读数:90

评论数:0

mySQL 关于bool类型

  mysql是不支持bool类型的,所以,当把一个数据设置成bool类型的时候,数据库会自动转换成tinyint(1)的数据类型,其实这个就是变相的bool。 默认值也就是1,0两种,分别对应了bool的true和false...

2018-08-08 18:09:55

阅读数:189

评论数:0

去表情字符串

try: microblog_device = re.findall(r'feed_from W_textb.*?nofollow">(.*?)<.*?div>', i, re.S)[-1] mi...

2018-08-03 14:11:19

阅读数:66

评论数:0

清除MYSQL字段中的空格

同时清除前面,后面及中间的空格: UPDATE et.yuangong SET xingming=TRIM(REPLACE(xingming,' ','')); 清除数据库et中yuangong表xingming字段中的空格(前面后面中间的空格)。 (1)mysql replace 函数 ...

2018-08-02 11:34:25

阅读数:122

评论数:0

mysql存储utf-8数据时有表情问题

从网络中取下的数据解析后不能插入数据库,提示某个字段有问题,问题提示如下: 1 SQLException: Incorrect string value: '\xF0\x9F\x98\x84' for column 'wei_content' at row 1 ...

2018-08-02 10:23:38

阅读数:39

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭