自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 收藏
  • 关注

转载 XPath匹配含有指定文本的标签---contains的用法

1、标签中只包含文字<div> <ul id="side-menu"> <li class="active"> <a href="#"> 卷期号: </a> </li> </ul></div>取包...

2019-09-22 16:36:00 740

转载 付费代理个人测评及选取——重复率、可用率、响应时间、稳定性、价格(只供参考)...

  由于公司业务要求,西瓜代理已经不满足需求,准备更换新的代理IP池,所以调研测试了一下市面上的各家付费代理(免费代理可用率低故不考虑),功能限制和价格情况等如何,以便从中挑选满足要求的代理。  1、目标站   2、情报收集  整理套餐的价格和类型,API频率,每秒提取上限,每天提取上限,使用时长等信息:(ps:这里建表格很费劲,所以传的图,如果...

2019-09-20 20:29:00 533

转载 windows--OSError: [Errno 22] Invalid argument: '\u202aE:/desk/Desktop/test.txt' 读取文件的坑

准备打开文件时,报了如下错误:在路径中出现了这个Unicode 202a字符,导致了这个错误。这玩意是哪里来的?复制windows文件属性的时候复制下图中的路径而来的。解释:这个字符的含义是left to right,也就是从左到右的阅读顺序,在写代码的时候显示不出来,但是在命令行中可以显示出来。感受一下,复制下面的这一句话,分别放在命...

2019-08-20 20:53:00 693

转载 python中hasattr()、getattr()、setattr()函数的使用

引言:  在阅读源码时,有很多简写的形式,其中一个比较常用的就是getattr()用来调用一个类中的变量或者方法,相关联的hasattr()、getattr()、setattr()函数的使用也一并学习了一下。正文:  1. hasattr(object, name)  判断object对象中是否存在name属性,当然对于python的对象而言,属性包含变量和方法;有则返回...

2019-08-16 09:49:00 196

转载 Mysql 局域网远程连接设置——Windows

工作中,遇到mysql数据库存储于我的电脑上,而其他电脑需要共同进行读写数据(类似redis并发),所以我的电脑就必须开启mysql远程连接。一. 授权1. 连接数据库  mysql -uroot -p2.选择系统库,mysql  use mysql;  当然你也可以看看你mysql里,都创建了哪些库 : show databases;...

2019-08-12 16:38:00 304

转载 已知词频生成词云图(数据库到生成词云)--generate_from_frequencies(WordCloud)

词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小。写在前面:用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述。但是对于根据generate_from_frequencies()给定词频如何画词云图的资料找了很久,下面只讲这种方法。generate_from_frequencies适用于我已知词及其对应的词频是多少(已有数据库...

2019-08-06 23:35:00 4395

转载 用多个分隔符切分字符串---re.split()

问题/需求:  需要将字符串切分,但是分隔符在整个字符串中并不一致  (即:需要用多个分隔符切分字符串)str.split()方法不可行:  只支持单一分隔符,不支持正则及多个切割符号,不感知空格的数量解决办法:  re.split()  适用:多个 分隔符,切割功能非常强大  语法: re.split(pattern, string, max...

2019-08-05 14:21:00 758

转载 matplotlib 中文乱码问题

matplotlib是Python著名的绘图库,默认并不支持中文显示,因此在不经过修改的情况下,无法正确显示中文。本文将介绍解决这一问题的方法。不修改文件,加两行代码即可:matplotlib.rcParams['font.sans-serif'] = ['simhei'] # 配置字体matplotlib.rcParams['font.family'] = 'sa...

2019-08-04 11:37:00 50

转载 sort和sorted区别----引子:多维列表,如何实现第一个元素升序,第二个元素降序...

一、列表内建方法--sort()作用:就地对列表排序(直接在原列表上做排序)语法:  list.sort(func=None, key=None, reverse=False)当reverse=False时:正向排序;当reverse=True时:逆向排序。默认为False。执行完后会改变原来的list,如果你不需要原来的list,这种效率稍微高点该方法没有返...

2019-07-04 21:08:00 916

转载 pyspider 数据存入Mysql--Python3

一、不写入Mysql以爬取哪儿网为例。以下为脚本:from pyspider.libs.base_handler import *class Handler(BaseHandler): crawl_config = { } @every(minutes=24 * 60) def on_start(self): ...

2019-07-03 11:09:00 536

转载 Kafka 初识

1.Kafka 是什么?用一句话概括一下:Apache Kafka 是一款开源的消息引擎系统。倘若“消息引擎系统“这个词对你来说有点陌生的话,那么“消息队列“、“消息中间件”的提法想必你一定是有所耳闻的。不过说实话我更愿意使用消息引擎系统这个称谓,因为消息队列给出了一个很不明确的暗示,仿佛 Kafka 是利用队列的方式构建的;而消息中间件的提法有过度夸张“中间件”之嫌,让人...

2019-06-16 14:17:00 93

转载 最清晰易懂的Mysql CURRENT_TIMESTAMP和ON UPDATE CURRENT_TIMESTAMP区别

timestamp数据类型Mysql数据库中,当字段类型为timestamp(时间戳)时,如果默认值取CURRENT_TIMESTAMP,则在insert一条记录时,此时的值自动设置为系统当前时间,一般做创建字段用(create_time)如果是 ON UPDATE CURRENT_TIMESTAMP ,则时间字段会随着update命令进行实时更新,即当此条数据的其他字段发生变化...

2019-06-12 11:26:00 353

转载 yield再理解--绝对够透彻

首先,拿好宝剑:先把yield看做“return”,普通的return是什么意思,就是在程序中返回某个值,返回之后程序就不再往下运行了。看做return之后再把它看做一个是生成器(generator)的一部分(带yield的函数才是真正的迭代器),返回的不是一个函数的输出,是一个生成器的结果,这样直到这个生成器全部执行完好了,带着宝剑继续看:def foo():...

2019-06-03 22:26:00 1114

转载 解决pyspider框架web预览框过小问题

解决pyspider框架web预览框过小问题Chrome 使用pyspider框架时,web预览框只有一小条:解决办法:找到debug.min.css文件,替换为如下内容:body{margin:0;padding:0;height:100%;overflow:hidden}.warning{color:#f0ad4e}.error{color:#d9...

2019-05-28 09:52:00 421

转载 python中的可哈希与不可哈希

什么是可哈希(hashable)?简要的说可哈希的数据类型,即不可变的数据结构(字符串str、元组tuple、对象集objects)。  哈希有啥作用?它是一个将大体量数据转化为很小数据的过程,甚至可以仅仅是一个数字,以便我们可以用在固定的时间复杂度下查询它,所以,哈希对高效的算法和数据结构很重要。什么是不可哈希(unhashable)?同理...

2019-05-19 14:26:00 308

转载 python json.dumps 中的ensure_ascii 参数引起的中文编码问题

使用json.dumps时要注意, json.dumps 序列化时,默认使用ascii编码,所以输出的是 '中国' 的ascii 字符码 "\u4e2d\u56fd"想输出真正的中文需要指定ensure_ascii=False:转载于:https://www.cnblogs.com/liangmingshen/p/108...

2019-05-15 18:00:00 184

转载 Exception: HTTP 599: SSL certificate problem: unable to get local issuer certificate 解决办法

使用Pyspider中报此错误。错误原因:这个错误会发生在请求 https 开头的网址,SSL 验证错误,证书有误。解决方法:使用self.crawl(url,callback=self.index_page,validate_cert=False)转载于:https://www.cnblogs.com/liangmingshen/p/10838970...

2019-05-09 15:56:00 442

转载 BeautifulSoup 获取无标签文本

比如:<p>aaa</p>bbb<p>ccc</p>ddd 怎么获取bbb和ddd呢?结果:  转载于:https://www.cnblogs.com/liangmingshen/p/10681981.html...

2019-04-10 10:48:00 1667

转载 【已解决】ERR_BLOCKED_BY_XSS_AUDITOR:Chrome 在此网页上检测到了异常代码:解决办法...

工作中,用Selenium自动化填表并获取结果时,程序一直安静的读取数据库,网页填表,获取结果,存库,但跑着跑着突然报错了。排查后,原来不是Selenium的问题,是数据比较特殊,带了个双引号,如下填表后提交时,触发了Chrome XSS自动过滤器 xssAuditor,导致POST请求拦截。(文尾会延伸:ChromexssAuditor的工作原理)Chr...

2019-03-26 13:07:00 728

转载 【已解决】Microsoft visual c++ 14.0 is required问题解决办法

装 识别图形验证码库tesserocr的时候,出现了Microsoft visual c++ 14.0 is required的问题,用离线安装还是没有用。就只能乖乖装Microsoft visual c++ 14.0了,找了好多不好使,最后找到了一个:点击打开链接转载于:https://www.cnblogs.com/liangmingshen/p/10572432.htm...

2019-03-21 16:20:00 199

转载 转义符的深入理解

转义符都知道,但可能会理解不到位,或者不深入。今天在工作中,遇到了转义符的问题,记录于此,也供大伙参考。1.问题概述爬取到的文本段落,中间有\t \r未处理就存入数据库了(文本截取如下: '......有效性。\r次要......' ),导致后来需要刷库,而在刷库过程中,我用的是:UPDATE china_drug_trials SET public_test_i...

2019-02-14 22:14:00 121

转载 爬虫处理网站的bug---小于号未转化为实体符

1.发现BUG  爬取 chinadrugtrials 详情页的公示的试验信息时候, 发现程序在某些地方跑断掉了,如下:  经排查发现,原来这是网页的bug-----极少数详情页面的某些文字中的小于号,未转化为实体符,连接上后面的 ul 或者a(大写也是), 成了类似标签的东西,导致bs4 解析时候把它当成了标签的起始尖括号,自动补全了。BUG简化如下:...

2019-02-13 21:27:00 265

转载 pymysql 在数据库中插入空值

1. 先搞清 ''(空字符串)和 NULL的区别(1)本质区别:  空字符串是个值  NULL 和Python中的NULL一样,是空值的意思(2)查询语句的区别:SELECT * FROM test_null WHERE name is NULL;SELECT * FROM test_null WHERE name= ''; 2. Py...

2019-01-29 10:00:00 1922

转载 python 正则括号的使用及踩坑

直接先上结论:若匹配规则里有1个括号------返回的是括号所匹配到的结果,若匹配规则里有多个括号------返回多个括号分别匹配到的结果,若匹配规则里没有括号------就返回整条语句所匹配到的结果。实际上是由其并不是python特有的,这是 正则 所特有的 , 任何一门高级语言使用正则都满足这个特点:有括号时只能匹配到括号中的内容,没有括号【相...

2019-01-26 16:01:00 218

转载 pymysql 解决 sql 注入问题

1.SQL注入SQL注入是非常常见的一种网络攻击方式,主要是通过参数来让mysql执行sql语句时进行预期之外的操作。即:因为传入的参数改变SQL的语义,变成了其他命令,从而操作了数据库。产生原因:SQL语句使用了动态拼接的方式。例如,下面这段代码通过获取用户信息来校验用户权限:import pymysqlsql = 'SELECT coun...

2019-01-26 15:15:00 110

转载 python3 操作MYSQL实例及异常信息处理--用traceback模块

# 用traceback模块查看异常import traceback import pymysqldb = pymysql.connect(host='localhost', user='root', password='root', port=3306, db='spiders')cursor = db.cursor()try: sql = '...

2019-01-24 22:49:00 284

转载 Mysql错误 ERROR 1064 (42000): You have an error in your SQL syntax

语法错误,可能有各种各样的问题。我这个摔的太疼了。字段名不能用空格。。转载于:https://www.cnblogs.com/liangmingshen/p/10290186.html

2019-01-18 23:28:00 290

转载 pyspider框架的599证书问题

使用PySpider 框架出现错误 HTTP 599: SSL certificate problem: unable to get local issuer certificate,如下HTTP 599: SSL certificate problem: unable to get local issuer certificate [E 161018 21:56:36 ba...

2019-01-08 17:25:00 128

转载 os.chmod()--更改目录授权权限

用法:os.chmod() 方法用于更改文件或目录的权限。语法:os.chmod(path, mode)参数:只需要2个参数,一个是路径,一个是说明路径的模式。  path-- 文件名路径或目录路径。  mode:stat.S_ISUID:Set user ID on execution. 不常用s...

2019-01-03 18:35:00 1298

转载 os.path.splitext()用法--分离文件名与扩展名

用法:os.path.splitext(“文件路径”) 分离文件名与扩展名;默认返回(fname,fextension)元组,可做分片操作例子:import ospath_01='E:\STH\Foobar2000\install.log'path_02='E:\STH\Foobar2000'res_01=os.path.splitext(path_0...

2019-01-03 16:42:00 210

转载 python装饰器中@wraps作用--修复被装饰后的函数名等属性的改变

Python装饰器(decorator)在实现的时候,被装饰后的函数其实已经是另外一个函数了(函数名等函数属性会发生改变),为了不影响,Python的functools包中提供了一个叫wraps的decorator来消除这样的副作用。写一个decorator的时候,最好在实现之前加上functools的wrap,它能保留原有函数的名称和docstring。废话不多说,上俩栗子就能搞明白!...

2019-01-01 22:58:00 368

转载 开发环境--Pipenv的使用

1.Pipenv 介绍Pipenv是基于pip的Python包管理工具,它和pip的用法非常相似,可以看做pip的加强版。pipenv解决了旧的pip+virtualenv+requirements.txt 的工作方式的弊端(因为requirements.txt 需要手动维护,使用上不够灵活)具体来说,它是pip、Pipfile、Virtualenv的结合体,它让安装包、包依...

2018-12-25 15:37:00 131

转载 记踩坑--Flask Web开发:S6电子邮件 ----[Errno 11004] getaddrinfo failed

必须要记录下踩过的坑,一来,为后来者铺路,二来,实在摔得疼,提醒自己写代码要谨小慎微。[Errno 11004] getaddrinfo failed1.先排除邮箱账号和授权码的错误测试如下代码:(注:邮箱号和授权码换成你自己的)# -*- coding: utf-8 -*-from flask import Flaskfrom flask_mail im...

2018-12-22 19:18:00 545

转载 Flask script 内的Shell 类 使用

1.集成Python shell每次自动shell会话都要导入数据库实例和模型,很烦人。为了避免一直重复导入,我们可以做些配置让Flask-Script的Shell命令自动导入特定的对象。若想把对象添加到导入列表中,我们要为shell命令注册一个make_context回调函数例子:hello.py: 为shell命令添加一个上下文from flask_script...

2018-12-14 15:56:00 421

转载 Flask-SQLAlchemy 无法创建Sqlite 数据库???

《Flask web 开发》第五章数据库照书中的方法无法创建表,没有python的命令提示符,只是运行程序输入db.create_all()后文件夹里也没有data.sqlite文件解决办法:仔细翻到章节2.6,falsk扩展,使用flask-script支持命令行选项,flask-script是一个flask扩展,为flask程序添加了一个命令行解析器。1、...

2018-12-13 16:40:00 334

转载 No module named flask.ext.script 解决方法

把 .ext. 换成 _ 就OK了from flask.ext.script import Managerfrom flask_script import Manager转载于:https://www.cnblogs.com/liangmingshen/p/10084300.html

2018-12-07 18:00:00 351

转载 Python 内置函数---map()

描述map()实现对一个可迭代对象中的每一个元素都应用一个函数将被传入的函数作用到一个可迭代对象的每一个元素上,并且返回了包含了所有这些函数调用结果的一个迭代器。由于map期待传入一个函数并会应用这个函数,它也恰好是lambda常常出现的地方之一。语法map() 函数语法:map(function, iterable, ...)参数functi...

2018-12-05 19:07:00 151

转载 sort 与 sorted 区别

sort 与 sorted 区别:sort只是应用在 list 上的方法,(就地排序无返回值)。sorted是内建函数,可对所有可迭代的对象进行排序操作,(返回新的list)。语法sorted 语法:sorted(iterable, key=None, reverse=False) 参数说明:iterable -- 可迭代对象。key --...

2018-12-03 22:45:00 131

转载 Pymongo--极简使用指南

1.简介及安装pymongo是Python中用来操作MongoDB的一个库。而MongoDB是一个基于分布式文件存储的数据库,旨在为WEB应用提供可扩展的高性能数据存储解决方案。其文件存储格式类似于JSON,叫BSON,不严谨、通俗地理解,就是Python中的字典键值对格式。例如:(简单的BSON结构体文档){ title:"MongoDB", las...

2018-11-22 01:38:00 157

转载 MongoDB 安装及开启关闭

开启关闭的方式:命令行输入net start mongodb就打开mongo的服务了输入net stop mongodb关闭服务验证是否成功的方式:在浏览器中输入http://localhost:27017网页中出现这句英文就说明好了。It looks like you are trying to access MongoDB over HTT...

2018-11-22 00:20:00 46

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除