- 博客(82)
- 资源 (10)
- 问答 (5)
- 收藏
- 关注
原创 scrapy 中修改图片的名称
在原来下载图片基础上:1.在设置文件中定义好图像名称字段IMAGES_NAME_FIELD = 'image_names'2.在images.py文件中修改名称类变量中添加:DEFAULT_IMAGES_URLS_FIELD = 'image_urls'DEFAULT_IMAGES_RESULT_FIELD = 'images'IMAGES_NAME_FIELD = '...
2019-12-19 13:56:32 443
原创 linux 下安装tensorflow
安装Anaconda<1> 下载对应的版本 清华大学开源软件镜像站 HOME EVENTS BLOG RSS PODCAST官网很慢 https://www.anaconda.com/download/ <2> 安装 sh Anaconda3-2018.12-Linux-x86_64.sh可自己修改安装路径这项根据自身需求...
2019-01-08 11:24:14 2779 1
原创 ffmpegc++添加时间水印格式
unsigned int myt=time(NULL);std::string stime = std::to_string(myt);std::string filter_descr = "drawtext=fontfile=arial.ttf:fontcolor=red:fontsize=50:x=0:y=0:text='%{pts\\:localtime\\:"+stime+"\\:%Y-%m-%d\\ \\%H\\\\\\:%M\\\\\\:%S}'";unsigned int myt
2022-03-25 14:37:40 738 1
原创 使用Squirrel连接hbase->java.util.concurrent.TimeoutException
初次使用Squirrel连接hbase时按照博客文档连接但是就是报错,查看zk日志发现并没有申请连接。搞了很久,发现Squirrel有自己的日志信息,能够查看具体的错误原因!!! 啊啊啊,苍天!!!!...
2021-08-18 10:28:39 312
原创 scrapy 出现INFO: Ignoring response <500 xxx>: HTTP status code is not handled or not allowed
scrapy 出现INFO: Ignoring response <500 xxx>: HTTP status code is not handled or not allowed我寻思500是服务器错误,肯定是没有数据返回的。但是:本机使用curl xxx是有数据返回的。使用requests.get模块也是有数据的,然后打印了下status_code发现是500.遂在settings中添加了HTTPERROR_ALLOWED_CODES = [500]发现是ok的。...
2021-05-10 13:58:09 451
原创 journalctl查看日志显示不全
journalctl -n 40 -u kubelet.service显示不全使用-->journalctl -n 40 -u kubelet.service | vim -
2020-12-08 11:51:17 7774
原创 no such file or directory (g-io-error-quark 1)
起因: 主节点执行kubectl get nodes时发现有个node挂了。 -->查看原因发现是因为缓冲区swap 未关闭,遂使用swapoff -a关闭缓冲区,然后应该执行kubeadm join就妥了。但是执行kubeadm join还是起不来,遂按正常思维觉得重启下就好了。 -->这时候执行systemctl restart kubelet就报错no such file or directory (g-io-error-quark 1),这时候我怀疑是doc...
2020-12-03 17:13:34 3776
转载 scrapy去重与scrapy_redis去重与布隆过滤器
原文:scrapy去重与scrapy_redis去重与布隆过滤器在开始介绍scrapy的去重之前,先想想我们是怎么对requests对去重的。requests只是下载器,本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列,判断抓取的url是否在其中,如下:crawled_urls = set()def check_url(url): if url not in crawled_urls: return True return F.
2020-11-30 19:24:50 327
转载 Python内存管理机制
Python内存管理机制Python的内存管理机制:引入计数、垃圾回收、内存池机制一、变量与对象关系图如下:1、变量,通过变量指针引用对象 变量指针指向具体对象的内存空间,取对象的值。2、对象,类型已知,每个对象都包含一个头部信息(头部信息:类型标识符和引用计数器)注意: 变量名没有类型,类型属于对象(因为变量引用对象,所以类型随对象),变量引用什么类型的对象,变量就是什么类型的。In [32]: var1=objectIn [33]: var2=var1
2020-11-24 16:58:39 127
原创 docker 添加/etc/docker/daemon.json后启动失败。
1. 看daemon.json格式或配置是不是不对!!2. 查看docker.service 中是不是有信息重复了!!!
2020-10-26 13:54:08 4611
原创 记一次chmod -R 777 / 之后 修复方法
linux系统误操作执行:chmod -R 777 / 之后 修复方法误操作“chmod -R 777 / ”怎么办,不慌听我讲解手贱执行chmod -R 777 /,ctrl c后所有命令执行报错: -bash: /usr/bin/xxx: 权限不够 没有root权限等 执行setfacl报权限不够题主一直打开着winscp,使用winscp修改root权限,发现可以改。so:在bin下找到setfacl命令,修改其权限,发现setfacl可以使...
2020-06-04 17:36:32 5316
原创 familia编译缺少libpython3.6m.so.1.0
familia编译时报错:缺少libpython3.6m.so.1.0方法1:去别的环境下找下有没 libpython3.6m.so.1.0,导过来加到共享库路径LD_LIBRARY_PATH,python版本需一样方法2:自己重新动态编译Python环境./configure --prefix=/usr/local/python3 --enable-shared CFLAGS=-f...
2020-03-31 13:51:57 3196
原创 scrapy 修改为scrapy_redis后parse无反应
原因:REDIS_URL写错REDIS_URL = 'redis://root:z_2014@192.168.1.1:6380/1'REDIS_URL 即 //用户名:密码@ip:port/表
2020-01-06 11:26:52 742
原创 pycharm 调试linux下docker容器中python代码
1.docker容器中需要安装ssh环境docker run时指定ssh端口 如:-p10024:22docker环境可以事先指定端口,安装ssh,启动即可,如事先没有指定端口,安装后commit成新镜像,重新run下安装如:https://www.cnblogs.com/0to9/p/11309587.html2.pycharm需要专业版配置根据网上教程配置即可配置如:...
2019-12-26 21:24:20 902
原创 BeautifulSoup的解析器,没有解析表格?
之前一般解析用的html.parser这次正文后附带表格,打印后发现没有表格内容,查询后换成html5lib就ok了,原因后续添加
2019-12-17 15:10:45 255
原创 urllib.error, status_code:405
req = requests.post(surl, headers=header, data=data, timeout=(5, 10))报405,检查了下header和data没毛病,查了一圈是请求方式错了req = requests.get(surl, headers=header, data=data, timeout=(5, 10))...
2019-11-28 11:30:19 381
原创 安装配置Jmeter
下载下载链接http://jmeter.apache.org/download_jmeter.cgi下载Binaries版本, 要不然可能会报这个错:unable to access ApacheJMeter.jar一定要安装java8+版本配置计算机-属性-高级系统设置-高级-环境变量-系统变量中添加:变量名:JMETER_HOME变量值:C:\Users...
2019-11-22 11:04:02 120
原创 python3 爬虫data不起作用
刚开始这么写的request_payload = {"flightWay": "管", "classType": "ALL"}response = requests.post(url, data=json.dumps(request_payload), headers=headers).text得出的结果和笔者想要的不同然后这样子改的就阔以了...
2019-11-04 13:59:32 700
原创 fiddler抓不了google的包解决方案
1.设置fiddler重启下!!!2.设置浏览器浏览器设置成fiddler模式,保证端口一致就可以抓包了
2019-11-01 15:18:18 4227
原创 elasticsearch 刷新问题
用elasticsearch作为搜索功能要求实时返回index或update的数据,指定refresh=True即可el.update(index="x", doc_type='xx', id=xxx, body=xxxx, refresh=True)refresh操作: 先将index-buffer中文档(document)生成的segment写到文件系统之中,...
2019-10-18 17:21:45 910
原创 bert 分类模型
大神的帖子:https://blog.csdn.net/xmxoxo/article/details/89315370github:https://github.com/xmxoxo/BERT-train2deploy记录本人训练情况:1.数据:train.tsv,test.tsv ,dev.tsv2.改源码:-> 修改run_classifier.py文件中get_lab...
2019-09-30 11:51:00 799
原创 我好难啊
吐槽一下,再接再厉!!!不想工作!!!不想加班!!!遇到好的链接记录下1.python 利用echarts画地图(热力图)(世界地图,省市地图,区县地图)https://blog.csdn.net/zerow__/article/details/887857592.gunicorn + Flask架构中使用多进程全局锁https://blog.csdn.net...
2019-09-17 16:19:40 149
原创 修改无法启动容器的文件
背景: 修改容器中的配置文件,restart了一下,容器没有启动,用docker logs 容器id 查询日志,原因是写的语句有问题方法:把docker容器中的配置文件复制到主机中,然后再主机中修改,修改完成后再复制到docker容器中1.复制docker容器的文件到主机中 docker cp 容器id:docker容器中配置文件路径 主机路径2. 修...
2019-06-26 13:44:38 592
原创 linux下安装python3
下载python3wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz没有wget 用yum安装wgetyum -y install wget解压mkdir -p /usr/local/python3tar -zxvf Python-3.6.1.tgz -C /usr/local/python3编译安装...
2019-06-21 16:09:15 344
原创 duilib 各控件响应的消息类型
消息 说明 Sender 宏定义 link CTextUI、CListTextElementUI DUI_MSGTYPE_LINK menu CButtonUI、CCo...
2019-06-11 16:45:33 1485
原创 Setup Factory 点击uninstall.exe Invalid start mode : archive filename
搜了很多资料,琢磨半天,找到一个有效方法,记录下点击uninstall.exe不生效,主要是因为没带参数方法:生成一个快捷方式,添加命令Shell.CreateShortcut("%AppFolder%", "卸载 NetManage.exe", "%AppFolder%\\uninstall.exe", "/U:.\\Uninstall\\uninstall.xml"...
2019-05-06 10:13:06 3551
原创 获取开机自启动时间
void GetBootTimeDetails(){ time_t lt; lt =time(NULL); //GetTickcount函数:它返回从操作系统启动到当前所经过的毫秒数,常常用来判断某个方法执行的时间,其函数原型是DWORD GetTickCount(void),返回值以32位的双字类型DWORD存储,因此可以存储的最大值是(2^32-1) ms约为49...
2019-04-24 11:11:02 2582
原创 win7 安装fasttext
1、pip升级到最新版本2、安装wheel文件https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext3、安装fasttext4、使用import fastText.FastText as ffclassifier = ff.train_supervised('data/t_cnews.train.txt'...
2019-04-12 19:50:37 282 6
转载 socket 编程
流程如下:socket是应用层和传输层之间的桥梁套接字连接过程:服务器监听<处于等待连接状态,实时监控网络状态>,客户端请求,确认连接int select( int nfds, fd_set FAR* readfds, fd_set * writefds, fd_set * exceptfds, const struct timeval * timeout...
2019-04-12 14:37:51 270
原创 neo4j Neo.ClientError.Security.Unauthorized 修改密码
报以上错, 死活试不出来,只有修改密码了可以看到auth信息在dbms下面,删除dbms重启重启后,登陆默认密码是neo4j
2019-03-28 16:03:46 19535 7
转载 基于Text-CNN模型的中文文本分类实战
转自https://cloud.tencent.com/developer/article/1335257Text-CNN1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结。本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于Text-CNN模型在搜狗新闻数据集上二分类的Demo。文本分类是自...
2019-03-21 11:06:17 8319
转载 准确率与召回率
1、两个最常见的衡量指标是“准确率(precision)”(你给出的结果有多少是正确的)和“召回率(recall)”(正确的结果有多少被你给出了) 这两个通常是此消彼长的(trade off),很难兼得。很多时候用参数来控制,通过修改参数则能得出一个准确率和召回率的曲线(ROC),这条曲线与x和y轴围成的面积就是AUC(ROC Area)。AUC可以综合衡量一个预测模型的好坏,这一个...
2019-03-20 18:48:41 778
转载 用scikit-learn学习DBSCAN聚类
在DBSCAN密度聚类算法中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数。1. scikit-learn中的DBSCAN类 在scikit-learn中,DBSCAN算法类为sklearn.cluster.DBSCAN。要熟练的掌握用DBSCAN类来聚类,除了对DBSCAN本身的...
2019-03-13 09:50:25 432
转载 文本聚类算法总结
一、文本聚类定义文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。二、算法分类1、划分法(基于划分的聚类算法)给定一个有N个元组或者纪录...
2019-03-01 14:30:03 14190
原创 requests 返回 521
记录下,免得忘,菜鸟一只,有问题请指出目录方法一 要是你只爬取一次,可以手动获取cookie 方法二 使用exejs执行js代码返回cookie方法三 seleniumreq = requests.get(surl, headers=header, timeout=10)打印req.status_code是521, 查了下,是js加密cookie的手...
2019-02-26 14:43:02 3239 2
NetworkX.rar
2019-08-13
NLP汉语自然语言处理原理与实践.pdf 有目录
2018-09-28
统计自然语言处理 宗成庆(第二版).pdf 带目录
2018-07-26
pyltp wheel文件 3.x
2018-06-05
大数据存储 hbase+es, 在亿级别不要求实时情况下单用es会有什么区别?
2021-07-09
pyspark速度很慢,不知道是哪方面原因求解惑。
2021-07-09
在公司预演大数据方向,但是方向很迷茫,应该从那方面入手。
2021-07-09
直接将hbase数据存磁盘和存hdfs的区别是什么?
2021-07-08
mysql数据量达到千万几倍,是应该分库分表还是迁移到nosql数据库中?该怎么抉择?
2021-07-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人