岁月云——python
文章平均质量分 52
1、python的设计模式
2、python算法的使用
3、python中多线程、进程、携程
warrah
岁月会计云
展开
-
python多进程与多线程
互联网上介绍多进程的文章很多,比如Python多进程 - 实现多进程的几种方式、python多进程并发、多进程。为什么自己记录呢,是因为在做多进程的时候总会遇到这样那样的问题,故只好亲自实践一下。1 最简单的多进程使用multiprocessing.Process定义进程,target参数传递的是进程执行的方法,args则是传递给执行方法的参数,这个参数不要太复杂,复杂类型就可能会报错。im...原创 2019-02-18 11:17:48 · 346 阅读 · 0 评论 -
bug宝典Python篇 pkg_resources.DistributionNotFound: The ‘pip==7.1.0‘ distribution was not found and is
#安装piptar -zxvf pip-9.0.1.tar.gz cd pip-9.0.1python setup.py install 再执行pip --version,提示下面的异常[root@ceshi187 pip-9.0.1]# pip --versionTraceback (most recent call last): File "/usr/bin/pip", line 5原创 2017-07-19 16:06:14 · 12257 阅读 · 1 评论 -
第4.1章 scrapy之web工程
简约而不简单的Django新手图文教程, 这个文档中代码已经把django的基础写得比较详细了,来了解一下WSGI这个概念下面要写的主要是django web工程的改造。 1 静态文件配置原创 2017-07-17 15:55:37 · 344 阅读 · 0 评论 -
反爬虫1
我是爬虫初学者,在爬虫中遇到的问题积累下来,总有些网站请求做了一些反爬虫的技术。思考一下,可以应用到自己的网站里面种。 使用fiddler抓包,我是按照下图过滤了一些信息. REGEX:\.(js|css|jpg|png|mp3|js\?.*|css?.*|jpg\?.*|png\?.*|mp3\?.*)$,将js、css、图片等隐藏掉,这些一般跟爬虫没太大关系,除非你爬取的就是图片或其他资...原创 2018-06-07 11:24:13 · 229 阅读 · 0 评论 -
IPProxyPool改造
不对IPProxyPool源码进行褒贬,致敬开源精神,我根据自己的实际业务需要,对其进行稍作改在,同时解读他的设计思路。 我的python环境是python3, 1、ipproxy启动 查看IPProxy.py中,这里有四个进程 # 提供rest api服务 p0 = Process(target=start_api_server) # 代理爬取 p1 ...翻译 2018-06-11 10:25:56 · 944 阅读 · 0 评论 -
带二级页面星尘算命网的爬虫
爬虫的代码比较简单,因为没有什么反爬,我比较喜欢用PyQuery,使用起来像jquery一样方便#!/usr/bin/python3# -*- coding: utf-8 -*-import scrapyfrom pyquery import PyQuery as pqimport refrom life_example.items import LifeExampleItemclass S128Spider(scrapy.Spider): name = "s128" sta原创 2020-06-23 10:02:19 · 401 阅读 · 0 评论 -
第1.3章 创建blog应用
1 创建blog 进入工程目录,执行python manage.py startapp blog 生成了下方红色方框中的系列文件,里面都是些空文件,并没有什么真正的代码,只是先占住位置而已,只是告诉django这个app是项目的一部分而已。 在settings.py中找到INSTALLED_APPS,添加'blog',django用INSTALLED_APPS来决定系统里不同部分的配置原创 2016-11-28 10:39:27 · 443 阅读 · 0 评论 -
第1.2章 运行django
新创建的django项目,目录如下manage.py 通django项目一起工作的工具。settings.py 包含项目的默认设置,包括数据库信息、调试标志以及其他一些重要的变量。urls.py 将url模式映射到应用程序上的配置文件。 通过python manage.py runserver运行, 也可以按照下图进行设置,运行manage.py Performing s原创 2016-11-28 10:04:39 · 293 阅读 · 0 评论 -
TensorFlow学习笔记
5 问题集5.1 RuntimeError: Error copying tensor to deviceRuntimeError: Error copying tensor to device: /job:localhost/replica:0/task:0/device:GPU:0. /job:localhost/replica:0/task:0/device:GPU:0 unknown...原创 2019-11-21 13:19:16 · 7722 阅读 · 1 评论 -
万维百科人物
中文维基百科访问不了,还好有个万维百科,可以从中获取名人的出生日期,虽然只有六个字,至少国外的人物出生日期想对比较准确。1 建库脚本create database if not exists wiki_person default character set utf8 default collate utf8_general_ci;show databases;use wiki_person;DROP TABLE IF EXISTS `life`;CREATE TABLE `原创 2021-02-11 09:39:23 · 4542 阅读 · 1 评论 -
fiddler使用总结
1 fiddler与夜神浏览器配置先看大神的配置Fiddler+夜神模拟器进行APP抓包配置https的抓包启动代理在夜神模拟器用的就是online这里的ip,应该是个内网地址夜神浏览器使用的是fiddler的代理网络,故而需要在浏览器中输入192.1...原创 2021-03-25 20:29:35 · 220 阅读 · 0 评论 -
通过PaddleOCR识别pdf数据
图片转文字、pdf识别原创 2022-01-23 08:51:09 · 7987 阅读 · 6 评论 -
第1.1章 django mysql环境准备
1 安装Django 执行命令pip install Django==1.10.2安装django,我用的开发工具是eclipse的Pydev插件 2 安装mysql-python 可以参考:python安装及配置中1.18章节,安装mysql-python. 3 创建django的web工程 用eclipse创建django的web工程,可参考。默认创建的数据配置是sqlite, 用P原创 2016-10-21 11:24:51 · 1906 阅读 · 0 评论 -
八字生助克泄耗数据生成
八字命理旺衰是个基本问题,但也是最有争议的问题,这里的旺衰值是从各命书中搜索出来的,整理比较费劲,就不公开了,但是其他的数据生成,可参考下面的代码#!/usr/bin/python3# -*- coding:UTF-8 -*'''@auther:dzm@date:2020-07-10 11:34@description:'''import csvimport pandas as pdfrom utils.db_config import engine_dbdef get_data(e原创 2020-07-13 12:16:23 · 529 阅读 · 1 评论 -
robots协议
今天阅读Richard Lawson著《用Python 写网络爬虫》,第一次听说robots协议,robots协议百度百科 于是我很好奇,查看了京东、淘宝等的robots.txt内容 1 淘宝 https://www.taobao.com/robots.txtUser-agent: BaiduspiderAllow: /articleAllow: /oshtmlAllow: /w原创 2017-03-03 09:59:22 · 1159 阅读 · 0 评论 -
旺衰与分类算法
触类旁通不是一件容易的事情,很多例子都是两个指标来确定分类,因为这样可以通过二维图有个清晰的认知。这里拿八字命理中最有争议的强弱论,试试用机器学习算法看看效果如何,因为我也可以才接触算法不久,故也对算法进行说明。这里不搞什么加权,因为你怎么加权,总有争议。只按照八字中天干以及支藏天干,对日主的生助克泄耗做分析。而利用机器学习中的算法,就相对客观了多。这里1:生、2:助、3:克、4:泄、5:耗数据生成参考八字生助克泄耗数据生成1 决策树计算得到交叉熵均值和模型准确率评分,通过调参得到效果如下表所示,原创 2020-07-13 13:55:48 · 351 阅读 · 0 评论 -
python-oauth2实现开放接口
python oauth2.0开放接口原创 2022-08-24 17:05:57 · 1200 阅读 · 0 评论 -
爬虫数据写mysql、redis、es
1、sqlalchemy实现orm层,保存企业详情链接;对象转字典;mysql管道2、分布式爬虫,redis3、数据写es原创 2021-12-12 12:24:52 · 2081 阅读 · 0 评论 -
采集人物经历来佐证子平术
见《宋书·范晔传》:“言之皆有实证,非为空谈。”子平有较高的或然率,但如果没有人物经历来佐证,就变成三教九流,成为“玄学”实在可惜。老外搞个mbti性格测试就巴巴说是科学,有智慧的老前辈总结的经验,因为不懂而无法传承,散落在明间成为偷偷么么被人看不起,实在是看不过去。有时候感觉西方人很笨,调研70多个家庭跟踪他们的一生,然后给出结论发表论文。然后中国的学生就认为人家严谨有科学研究精神,何曾想过这70个样本想对人类这么大基数根本不值得一提。另外一个视角,研究问题真的需要采用这么笨的方法吗?梁湘润大师等都说看原创 2022-01-28 21:25:55 · 546 阅读 · 0 评论 -
ORC CRNN
【OCR技术系列之一】字符识别技术总览,从前辈的文章我看到,印刷过程中字体很可能变得断裂或者墨水粘连,那么通过什么样的技术解决此问题呢?OCR技术系列之二】文字定位与切割,现在的技术还需要将每一个字符从图片中切割下来吗?采用end-to-end的方式,就不用那么麻烦了。AI学习笔记——End-to-End(端到端)的深度学习,正因为end-to-end不需要,所以他需要大量的训练样本。2 图...原创 2019-11-04 13:52:12 · 355 阅读 · 0 评论 -
python邮件发送带附件
1 发送邮件qq邮箱需要配置一下import smtplibfrom email.header import Headerfrom email.mime.application import MIMEApplicationfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartdef send_email_attach(self,subject,content, file_name,f原创 2022-03-04 19:05:56 · 854 阅读 · 0 评论 -
反爬技术的一些实战
18年开始带爬虫团队,爬虫采取别人网站的数据,然后脱敏还能再次使用,当时是为企业信息,你看企查查、天眼查、慢慢买这类网站干的就是之类的事情,但是当你自己做网站的时候,你的烦恼也来了,因为开发网站的人并不懂爬虫,自己辛辛苦苦攒的数据,别人轻易的采集走了,估计你也心不甘。再说现在AI比较火,AI的算法模型都有泛化能,从0到80%的准确率很容易,但更进一步则需要大量的数据,而数据从哪里来呢?很大一部分是通过爬虫来获取的。1 验证码早起极验验证码,后来github中有很多都能攻破,导致国家企业公示系统的数据被原创 2021-08-13 19:30:01 · 279 阅读 · 0 评论 -
采集万年数据
万年历、相同的八字因流年不同命运不同原创 2022-01-22 09:08:35 · 160 阅读 · 0 评论 -
scrapy_redis百度人物爬虫
八字命令做了不少改造,最后发现还有需要大量的案例,有些条文总是太模糊,而没有权威解释,你很难相信他们所有的信手拈来的“想象力”。1 scrapy_redisScrapy-redis分布式+Scrapy-redis实战pip install scrapy_redis -i https://pypi.tuna.tsinghua.edu.cn/simple使用scrapy_redis,获取百度人物的链接,代码很简单,就是从文件中按行读取名称,写入到redis中# -*- coding: utf-8原创 2021-08-11 20:12:55 · 182 阅读 · 0 评论 -
No module named win32api
在cmd窗口执行scrapy crawl dmoz,提示错误No module named win32api 解决的方式是安装pywin32, 可参考Python教程:pywin32下载安装 安装的时候pywin32会自己去寻找python的目录。 再次验证,执行成功原创 2016-10-14 09:29:40 · 737 阅读 · 0 评论 -
python2安装及配置
1 windows环境 1.1 python安装 python下载地址,这里选用的是python2.7版本。 设置用户环境变量PYTHON_HOME,并将路径添加到用户变量Path中.在命令窗口执行python命令,表明python环境变量执行成功。 1.2 eclipse PyDev插件 1.3 ez_setup.py安装 ez_setup.py是python官方给出的一原创 2016-09-08 08:48:15 · 6920 阅读 · 0 评论 -
tornado开发的页面跳转到微信小程序
tornado 微信小程序跳转原创 2022-08-31 09:39:34 · 304 阅读 · 0 评论 -
第1.6章 scrapy之logger
网上有很多介绍logger的配置,但是我在执行过程中发现scrapy中使用,logger.cfg的文件的位置还有要求,因为scrapy和普通的python脚本根目录是有区别的 下图绿色字体表示scrapy的根是与scrapy.cfg的直接上级目录 而红色字体的根是与settings.py的直接上级目录, 这里是有区别的,要想通用,最简单的办法,就是在这两个根目录下面都加上logger.cfg文原创 2017-06-14 18:39:54 · 1560 阅读 · 0 评论 -
第3.3章 scrapy之spiderkeeper
SpiderKeeper Git地址, 因为我们有10台爬虫机器,250个爬虫,于是安排同事使用spiderkeeper管理,但是在deploy环节,50个爬虫的时候,就发布不上去了,逼的我没办法,只能看源码,分析upload做了什么。 1 调试准备 执行pip install scrapyd进行安装,更改scrapyd的配置 将bind_address = 127.0.0.1更改为...原创 2018-06-25 13:34:45 · 1377 阅读 · 7 评论 -
第4.1章 飞鸟集爬虫采用结巴分词随机排序存储
这个爬虫非常简单,但是里面主要是通过结巴分词,pip3 install jieba,将泰戈尔的《飞鸟集》从网站上获取飞鸟集后,将文档进行逐行过滤,最终生成题目和答案两个文档。'''飞鸟集(泰戈尔)'''import scrapyimport reimport jiebaimport randomfrom pyquery import PyQuery as pqclass Fe...原创 2018-11-03 18:07:19 · 220 阅读 · 0 评论 -
第1.3章 scrapy之动态UserAgent
防范爬虫,从HTTP请求头部信息开始,所以UserAgent需要做动态设置# -*- coding: utf-8 -*-'''Created on 2017年4月21日用户代理@author: dzm@param 加密等级标识: N:无安全加密,I:弱安全加密, U:强安全加密@param 渲染引擎: Gecko、WebKit、KHTML、Presto、Trident、Tasman等原创 2017-06-13 16:42:32 · 764 阅读 · 0 评论 -
第2.3章 scrapy之selenium
将selenium应用到scrapy本身并不复杂,复杂的是请求页面的时候,经常会提示timeout,而你很难很快找到解决办法,下面设置了两个时间点,单位为s,超时时间根据各自的应用决定。import sysimport timeimport randomimport tracebackfrom selenium.common.exceptions import TimeoutExceptio原创 2017-07-05 17:00:40 · 744 阅读 · 0 评论 -
第1.4章 scrapy之setting
# -*- coding: utf-8 -*-BOT_NAME = 'eie'SPIDER_MODULES = ['eie.spiders']NEWSPIDER_MODULE = 'eie.spiders'# 爬虫规则配置# robots.txt规则ROBOTSTXT_OBEY = False# 下载延迟DOWNLOAD_DELAY = 3#启用CookieCOOKIES_ENAB原创 2017-06-13 16:53:42 · 438 阅读 · 0 评论 -
第1.7章 scrapy之ip代理的使用
1 代理中间件 代码核心在于随机选择一条代理的ip和port,至于代理ip和port的来源,可以是购买的ip代理,也可以从网上爬取的。# -*- coding: utf-8 -*-'''Created on 2017年6月14日@author: dzm'''from eie.middlewares import udf_configfrom eie.service.EieIpServic原创 2017-06-21 14:19:34 · 5014 阅读 · 1 评论 -
第1.9章 scrapy之完整工程部署
1 scrapy# 安装sqliteyum install sqlite-devel # 升级python到2.7.12,注意原系统中python版本tar -zxvf Python-2.7.12.tgzcd Python-2.7.12./configure make allmake installmake clean make distclean mv /usr/bin/原创 2017-07-21 14:04:28 · 738 阅读 · 0 评论 -
第4.4章 scrapy爬虫lambda传参
输入地址聂卫平,我想看看中国棋院棋手到底有哪些特点,看到了下图,决定写个爬虫,一下子下载下来这里并不是静态加载的,而是像后台请求的。这里使用了lambda传参import scrapyimport jsonfrom pyquery import PyQuery as pqfrom life_example.items import PersonBaiKeItemfrom life_e...原创 2018-11-26 20:33:56 · 279 阅读 · 0 评论 -
第1.10章 scrapy之pypi-server的使用
pypi-server官网 pip install pypiserver-1.2.1-py2.py3-none-any.whl下载文件后,执行这个命令即可 然后执行nohup pypi-server -p 9090 /home/test/packages & 通过lsof -i:9090查看端口是否生效,即验证服务器是否正常启动 链接pypi-server安装文件pip...原创 2018-06-12 10:58:35 · 328 阅读 · 0 评论 -
第3.2章 scrapy之kafka
1 安装kafka-python kafka-python 1.3.3,通过pip install kafka-python或者kafka_python-1.3.3-py2.py3-none-any.whl下载,然后再进行pip安装 2 centos下kafka 这里参考别人的部署说明,拾人牙慧一下 Kafka单机、集群模式安装详解(一) Kafka单机、集群模式安装详解(二)原创 2017-07-17 15:18:49 · 1453 阅读 · 0 评论 -
第4.2章 简单的二级页面爬取并采用docx操作word
爬取这个网站的初衷,还是为了辅导儿子学习。古文很重要,相信高中生都很痛苦,那些古代文字都不知道是啥意思,所以还是早点背诵比较好。感谢网站的贡献者,我们可以直接写爬虫直接从上面爬下来,不用一个个字敲,或者买本厚厚的书。爬虫的代码很简单,这里说明下:parser='html'这个参数一般是不需要的,但是如果文档定义的是在xmlns="http://www.w3.org/1999/xhtm,就需要知...原创 2018-11-07 13:40:17 · 230 阅读 · 0 评论 -
第1.2章 scrapy之python2中scrapy安装
python版本采用3.5.2,执行pip install scrapy,会提示error: Unable to find vcvarsall.bat的错误,黄色的内容是pip的版本低了,那么可以执行 python -m pip install --upgrade pip进行升级 python3.5在windows环境依赖于VS2015,而VS2015是For Win10的,在Win7上装不原创 2016-10-13 09:15:21 · 3081 阅读 · 0 评论