时代在召唤r-CSDN博客

原创 scrapy 中修改图片的名称

在原来下载图片基础上：1.在设置文件中定义好图像名称字段IMAGES_NAME_FIELD = 'image_names'2.在images.py文件中修改名称类变量中添加：DEFAULT_IMAGES_URLS_FIELD = 'image_urls'DEFAULT_IMAGES_RESULT_FIELD = 'images'IMAGES_NAME_FIELD = '...

2019-12-19 13:56:32 501

原创 linux 下安装tensorflow

安装Anaconda<1> 下载对应的版本清华大学开源软件镜像站 HOME EVENTS BLOG RSS PODCAST官网很慢 https://www.anaconda.com/download/ <2> 安装 sh Anaconda3-2018.12-Linux-x86_64.sh可自己修改安装路径这项根据自身需求...

2019-01-08 11:24:14 2872 1

unsigned int myt=time(NULL);std::string stime = std::to_string(myt);std::string filter_descr = "drawtext=fontfile=arial.ttf:fontcolor=red:fontsize=50:x=0:y=0:text='%{pts\\:localtime\\:"+stime+"\\:%Y-%m-%d\\ \\%H\\\\\\:%M\\\\\\:%S}'";unsigned int myt

2022-03-25 14:37:40 950 1

原创使用Squirrel连接hbase-＞java.util.concurrent.TimeoutException

初次使用Squirrel连接hbase时按照博客文档连接但是就是报错，查看zk日志发现并没有申请连接。搞了很久，发现Squirrel有自己的日志信息，能够查看具体的错误原因！！！啊啊啊，苍天！！！！...

2021-08-18 10:28:39 388

原创 scrapy 出现INFO: Ignoring response ＜500 xxx＞: HTTP status code is not handled or not allowed

scrapy 出现INFO: Ignoring response <500 xxx>: HTTP status code is not handled or not allowed我寻思500是服务器错误，肯定是没有数据返回的。但是：本机使用curl xxx是有数据返回的。使用requests.get模块也是有数据的，然后打印了下status_code发现是500.遂在settings中添加了HTTPERROR_ALLOWED_CODES = [500]发现是ok的。...

2021-05-10 13:58:09 547

原创 python开发面试刷题指南

python多线程与多进程及其区别

2021-02-26 11:24:18 448

原创 journalctl查看日志显示不全

journalctl -n 40 -u kubelet.service显示不全使用-->journalctl -n 40 -u kubelet.service | vim -

2020-12-08 11:51:17 9038

原创 no such file or directory (g-io-error-quark 1)

起因：主节点执行kubectl get nodes时发现有个node挂了。 -->查看原因发现是因为缓冲区swap 未关闭，遂使用swapoff -a关闭缓冲区，然后应该执行kubeadm join就妥了。但是执行kubeadm join还是起不来，遂按正常思维觉得重启下就好了。 -->这时候执行systemctl restart kubelet就报错no such file or directory (g-io-error-quark 1)，这时候我怀疑是doc...

2020-12-03 17:13:34 4256

转载 scrapy去重与scrapy_redis去重与布隆过滤器

原文：scrapy去重与scrapy_redis去重与布隆过滤器在开始介绍scrapy的去重之前，先想想我们是怎么对requests对去重的。requests只是下载器，本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列，判断抓取的url是否在其中，如下：crawled_urls = set()def check_url(url): if url not in crawled_urls: return True return F.

2020-11-30 19:24:50 398

转载 Python内存管理机制

Python内存管理机制Python的内存管理机制：引入计数、垃圾回收、内存池机制一、变量与对象关系图如下：1、变量，通过变量指针引用对象　　变量指针指向具体对象的内存空间，取对象的值。2、对象，类型已知，每个对象都包含一个头部信息（头部信息：类型标识符和引用计数器）注意：　　变量名没有类型，类型属于对象（因为变量引用对象，所以类型随对象），变量引用什么类型的对象，变量就是什么类型的。In [32]: var1=objectIn [33]: var2=var1

2020-11-24 16:58:39 192

原创 docker 添加/etc/docker/daemon.json后启动失败。

1. 看daemon.json格式或配置是不是不对！！2. 查看docker.service 中是不是有信息重复了！！！

2020-10-26 13:54:08 4890

原创 pycharm远程连接服务器后添加LD_LIBRARY_PATH

在中的添加LD_LIBRARY_PATH以及路径

2020-07-31 17:27:01 1134

原创记一次chmod -R 777 / 之后修复方法

linux系统误操作执行：chmod -R 777 / 之后修复方法误操作“chmod -R 777 / ”怎么办，不慌听我讲解手贱执行chmod -R 777 /，ctrl c后所有命令执行报错： -bash: /usr/bin/xxx: 权限不够没有root权限等执行setfacl报权限不够题主一直打开着winscp,使用winscp修改root权限，发现可以改。so:在bin下找到setfacl命令，修改其权限，发现setfacl可以使...

2020-06-04 17:36:32 5552

原创 familia编译缺少libpython3.6m.so.1.0

familia编译时报错：缺少libpython3.6m.so.1.0方法1：去别的环境下找下有没 libpython3.6m.so.1.0，导过来加到共享库路径LD_LIBRARY_PATH，python版本需一样方法2：自己重新动态编译Python环境./configure --prefix=/usr/local/python3 --enable-shared CFLAGS=-f...

2020-03-31 13:51:57 3371

原创 scrapy 修改为scrapy_redis后parse无反应

原因：REDIS_URL写错REDIS_URL = 'redis://root:z_2014@192.168.1.1:6380/1'REDIS_URL 即 //用户名：密码@ip:port/表

2020-01-06 11:26:52 838

原创 pycharm 调试linux下docker容器中python代码

1.docker容器中需要安装ssh环境docker run时指定ssh端口如：-p10024：22docker环境可以事先指定端口，安装ssh，启动即可，如事先没有指定端口，安装后commit成新镜像，重新run下安装如：https://www.cnblogs.com/0to9/p/11309587.html2.pycharm需要专业版配置根据网上教程配置即可配置如：...

2019-12-26 21:24:20 998

原创 BeautifulSoup 解析总结

持续更新1.并列标签的所有内容soup.find_all(['p', 'div'])

2019-12-18 15:58:59 483

原创 BeautifulSoup的解析器，没有解析表格？

之前一般解析用的html.parser这次正文后附带表格，打印后发现没有表格内容，查询后换成html5lib就ok了，原因后续添加

2019-12-17 15:10:45 305

原创 urllib.error, status_code:405

req = requests.post(surl, headers=header, data=data, timeout=(5, 10))报405，检查了下header和data没毛病，查了一圈是请求方式错了req = requests.get(surl, headers=header, data=data, timeout=(5, 10))...

2019-11-28 11:30:19 442

原创安装配置Jmeter

下载下载链接http://jmeter.apache.org/download_jmeter.cgi下载Binaries版本, 要不然可能会报这个错：unable to access ApacheJMeter.jar一定要安装java8+版本配置计算机-属性-高级系统设置-高级-环境变量-系统变量中添加:变量名：JMETER_HOME变量值：C:\Users...

2019-11-22 11:04:02 166

原创 python3 爬虫data不起作用

刚开始这么写的request_payload = {"flightWay": "管", "classType": "ALL"}response = requests.post(url, data=json.dumps(request_payload), headers=headers).text得出的结果和笔者想要的不同然后这样子改的就阔以了...

2019-11-04 13:59:32 790

原创 fiddler抓不了google的包解决方案

1.设置fiddler重启下！！！2.设置浏览器浏览器设置成fiddler模式，保证端口一致就可以抓包了

2019-11-01 15:18:18 4366

原创 elasticsearch 刷新问题

用elasticsearch作为搜索功能要求实时返回index或update的数据，指定refresh=True即可el.update(index="x", doc_type='xx', id=xxx, body=xxxx, refresh=True)refresh操作：先将index-buffer中文档（document）生成的segment写到文件系统之中，...

2019-10-18 17:21:45 1027

原创 bert 分类模型

大神的帖子：https://blog.csdn.net/xmxoxo/article/details/89315370github:https://github.com/xmxoxo/BERT-train2deploy记录本人训练情况：1.数据：train.tsv,test.tsv ,dev.tsv2.改源码：-> 修改run_classifier.py文件中get_lab...

2019-09-30 11:51:00 882

原创我好难啊

吐槽一下，再接再厉！！！不想工作！！！不想加班！！！遇到好的链接记录下1.python 利用echarts画地图(热力图)(世界地图，省市地图，区县地图)https://blog.csdn.net/zerow__/article/details/887857592.gunicorn + Flask架构中使用多进程全局锁https://blog.csdn.net...

2019-09-17 16:19:40 194

原创修改无法启动容器的文件

背景：修改容器中的配置文件，restart了一下，容器没有启动，用docker logs 容器id 查询日志，原因是写的语句有问题方法：把docker容器中的配置文件复制到主机中，然后再主机中修改，修改完成后再复制到docker容器中1.复制docker容器的文件到主机中 docker cp 容器id：docker容器中配置文件路径主机路径2. 修...

2019-06-26 13:44:38 683

原创 linux下安装python3

下载python3wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz没有wget 用yum安装wgetyum -y install wget解压mkdir -p /usr/local/python3tar -zxvf Python-3.6.1.tgz -C /usr/local/python3编译安装...

2019-06-21 16:09:15 431

原创 duilib 各控件响应的消息类型

消息说明 Sender 宏定义 link CTextUI、CListTextElementUI DUI_MSGTYPE_LINK menu CButtonUI、CCo...

2019-06-11 16:45:33 1603

原创删除状态为Dead的容器

容器状态为dead删除容器由于容器挂载数据卷，无法直接删除kill相关进程，删除成功

2019-06-06 16:05:15 735

原创 Setup Factory 点击uninstall.exe Invalid start mode : archive filename

搜了很多资料，琢磨半天，找到一个有效方法，记录下点击uninstall.exe不生效，主要是因为没带参数方法：生成一个快捷方式，添加命令Shell.CreateShortcut("%AppFolder%", "卸载 NetManage.exe", "%AppFolder%\\uninstall.exe", "/U:.\\Uninstall\\uninstall.xml"...

2019-05-06 10:13:06 3849

原创获取开机自启动时间

void GetBootTimeDetails(){ time_t lt; lt =time(NULL); //GetTickcount函数：它返回从操作系统启动到当前所经过的毫秒数，常常用来判断某个方法执行的时间，其函数原型是DWORD GetTickCount(void)，返回值以32位的双字类型DWORD存储，因此可以存储的最大值是(2^32-1) ms约为49...

2019-04-24 11:11:02 3248

原创 win7 安装fasttext

1、pip升级到最新版本2、安装wheel文件https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext3、安装fasttext4、使用import fastText.FastText as ffclassifier = ff.train_supervised('data/t_cnews.train.txt'...

2019-04-12 19:50:37 343 6

转载 socket 编程

流程如下：socket是应用层和传输层之间的桥梁套接字连接过程：服务器监听<处于等待连接状态，实时监控网络状态>，客户端请求，确认连接int select( int nfds, fd_set FAR* readfds,　fd_set * writefds, fd_set * exceptfds,　const struct timeval * timeout...

2019-04-12 14:37:51 348

原创 neo4j Neo.ClientError.Security.Unauthorized 修改密码

报以上错，死活试不出来，只有修改密码了可以看到auth信息在dbms下面，删除dbms重启重启后，登陆默认密码是neo4j

2019-03-28 16:03:46 20003 7

转载基于Text-CNN模型的中文文本分类实战

转自https://cloud.tencent.com/developer/article/1335257Text-CNN1.文本分类转眼学生生涯就结束了，在家待就业期间正好有一段空闲期，可以对曾经感兴趣的一些知识点进行总结。本文介绍NLP中文本分类任务中核心流程进行了系统的介绍，文末给出一个基于Text-CNN模型在搜狗新闻数据集上二分类的Demo。文本分类是自...

2019-03-21 11:06:17 8558

转载准确率与召回率

1、两个最常见的衡量指标是“准确率（precision）”（你给出的结果有多少是正确的）和“召回率（recall）”（正确的结果有多少被你给出了）这两个通常是此消彼长的（trade off），很难兼得。很多时候用参数来控制，通过修改参数则能得出一个准确率和召回率的曲线（ROC），这条曲线与x和y轴围成的面积就是AUC（ROC Area）。AUC可以综合衡量一个预测模型的好坏，这一个...

2019-03-20 18:48:41 873

转载用scikit-learn学习DBSCAN聚类

在DBSCAN密度聚类算法中，我们对DBSCAN聚类算法的原理做了总结，本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结，重点讲述参数的意义和需要调参的参数。1. scikit-learn中的DBSCAN类　　　　在scikit-learn中，DBSCAN算法类为sklearn.cluster.DBSCAN。要熟练的掌握用DBSCAN类来聚类，除了对DBSCAN本身的...

2019-03-13 09:50:25 501

转载文本聚类算法总结

一、文本聚类定义文本聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段。二、算法分类1、划分法（基于划分的聚类算法）给定一个有N个元组或者纪录...

2019-03-01 14:30:03 14555

原创 requests 返回 521

记录下，免得忘，菜鸟一只，有问题请指出目录方法一要是你只爬取一次，可以手动获取cookie 方法二使用exejs执行js代码返回cookie方法三 seleniumreq = requests.get(surl, headers=header, timeout=10)打印req.status_code是521，查了下，是js加密cookie的手...

2019-02-26 14:43:02 3487 2

基于知识图谱的精细化工辅助研发平台.pdf

化工类知识图谱构建方法

2021-07-01

NLP汉语自然语言处理原理与实践.pdf 有目录

NLP汉语自然语言处理原理与实践是一本研究汉语自然语言处理方面的基础性、综合性书籍，涉及NLP的语言理论、算法和工程实践的方方面面，内容繁杂。本书包括NLP的语言理论部分、算法部分、案例部分，涉及汉语的发展历史、传统的句法理论、认知语言学理论。需要指出的是，本书是迄今为止第一本系统介绍认知语言学和算法设计相结合的中文NLP书籍，并从认知语言学的视角重新认识和分析了NLP的句法和语义相结合的数据结构。这也是本书的创新之处。

2018-09-28

word2vec源码与原理

资源包括word2vec源码与Deep_Learning实战之word2vec.pdf

2018-11-28

微博情感200万条dataset_619757.rar

情感分类可以用到最近在搞微博情感分类，网上下的资源

2019-09-04

GB 20093.rar

中文新闻信息分类与代码本标准规定了中文新闻分类的原则、方法、体系和类目代码

2019-09-04

音乐播放器网页版

音乐播放器能实现顺序播放，循环播放等界面友好可以添加删除音乐等可以调节声音大小

2015-12-20

NetworkX.rar

NetworkX 使用文档 The structure of NetworkX can be seen by the organization of its source code. The package provides classes for graph objects, generators to create standard graphs, IO routines for reading in existing datasets, algorithms to analyze the resulting networks and some basic drawing tools. Most of the NetworkX API is provided by functions which take a graph object as an argument. Methods of the graph object are limited to basic manipulation and reporting. This provides modularity of code and documentation. It also makes it easier for newcomers to learn about the package in stages. The source code for each module is meant to be easy to read and reading this Python code is actually a good way to learn more about network algorithms, but we have put a lot of effort into making the documentation sufficient and friendly. If you have suggestions or questions please contact us by joining the NetworkX Google group. Classes are named using CamelCase (capital letters at the start of each word). functions, methods and variable names are lower_case_underscore (lowercase with an underscore representing a space between words).

2019-08-13

中文褒贬义词典.rar

清华大学李军中文褒贬义词典知网

2021-06-25

pyltp wheel文件 3.x

pyltp 3.x 安装pyltp所需文件 pyltp-0.2.1-cp35-cp35m-win_amd64.whl pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2018-06-05

统计自然语言处理宗成庆（第二版）.pdf 带目录

本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。本书可作为高等院校计算机、信息技术等相关专业的高年级本科生或研究生的教材或参考书，也可供从事自然语言处理、数据挖掘和人工智能等研究的相关人员参考。

2018-07-26

TA关注的人

基于知识图谱的精细化工辅助研发平台.pdf

NLP汉语自然语言处理原理与实践.pdf 有目录

word2vec源码与原理

微博情感200万条dataset_619757.rar

GB 20093.rar

音乐播放器 网页版

NetworkX.rar

中文褒贬义词典.rar

pyltp wheel文件 3.x

统计自然语言处理 宗成庆（第二版）.pdf 带目录

pyspark速度很慢，不知道是哪方面原因求解惑。

大数据存储 hbase+es, 在亿级别不要求实时情况下单用es会有什么区别？

在公司预演大数据方向，但是方向很迷茫，应该从那方面入手。

直接将hbase数据存磁盘和存hdfs的区别是什么？

mysql数据量达到千万几倍，是应该分库分表还是迁移到nosql数据库中？该怎么抉择？

音乐播放器网页版

统计自然语言处理宗成庆（第二版）.pdf 带目录