自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Zoe_liuxy

螺旋式学习

  • 博客(11)
  • 收藏
  • 关注

原创 Centos7 利用firewalld修改docker端口权限

可能是我的所有博客里最简短的一篇了……纯属记录下,如果有遇到同样问题的朋友请看:我的服务器上用docker运行的elasticsearch,开放了9200端口,但我不想让我的9200端口暴露在公网上,因此我用iptables加了两条规则试图drop外网对9200端口的请求:iptables -I INPUT -p tcp --dport 9200 -j DROPiptables -I INP...

2019-11-22 11:17:05 1759 2

原创 微信公众号文章保存到本地

网页版微信公众号的文章url是临时链接,如果你想过段时间再查看该篇文章就会发现链接过期,因此在爬取到文章后非常有必要把网页保存下来。保存网页的时候,我们希望把图片、js、css等文件同时保存,使得html文件打开后与原网页一模一样。但是我在保存微信公众号文章的时候发现,即使我已经成功下载了图片,但图片总是无法加载。仔细研究之后我发现是一个参数导致的:crossorigin="anonymou...

2019-11-13 10:28:02 1643

原创 OrientDB在Python中的使用

写在前面:OrientDB是一款功能很强大的数据库,兼具了图数据库与键值对数据库的特点,非常适合用于知识图谱的构建。我们部门的新项目要求用OrientDB代替mongodb和neo4j,从而只用一款数据库完成数据存储与绘图的两部分功能。但是!OrientDB的python连接教程真的就是一坨shit。。。讲的及其不清楚而且还错误一大堆,网上没有什么这方面的教程,因此我就在这篇中讲一下我所遇到的...

2019-07-01 17:03:21 1573

原创 socket学习之TCP协议过程(一)

前段时间学习了socket编程,把现有的分析系统分成了服务器端与客户端两部分。但基本使用的还是简单的socket的编程,对于内里还不够了解,只能说会用了而已。使用过程中我发现了一个问题,一直想不通原因,也借此机会仔细学一下socket原理,希望学到最后可以解决我的困惑吧。先把问题阐述一下:代码为廖雪峰老师的教程中的代码,服务器端:server.pyimport sockets = sock...

2019-04-26 17:44:08 281

原创 如何完成企业舆情监测——话题检测与跟踪

近期公司新提了需求,希望利用已有的舆情检测系统对公司的负面新闻进行监测。目前的舆情系统能完成基本的信息抓取、信息分析与统计,但当前舆情系统为事件级监测,针对已出现的某一事件进行舆情分析,尚不能准确处理企业级的舆情。目前所考虑的基本流程为:事件收集话题检测(TDT)事件追踪事件收集确定爬取网站:考虑包括微博、头条、知乎等主流新闻网站以及百度、谷歌、必应等主流搜索引擎。网页过滤与清...

2019-04-09 16:31:24 2750 4

转载 数据库知识点整理

分类查询优化性能优化索引事务面经1、分类关系型数据库1)mysql 2)sqlserver非关系型数据库1)键值对数据库:redis、memcache 2)列存储数据库:hbase 3)文档型数据库:mongdb 4)图形数据库:graph2、查询优化逻辑层查询优化1.尽可能的早做选择和投影(基本思路):可以使中间结...

2018-09-10 10:38:28 121

原创 知识点整理总结

TCP/IP部分:协议森林 linux相关:linux系统linux命令 数据结构:排序算法红黑树 各种面经:C++岗笔试经验(转)

2018-08-21 10:47:34 146

原创 信息去重——降低爬虫分析数据误报率

最近在做的项目提出了个需求,仅以此文记录。项目背景:对售假人员进行搜索,爬取其所在公司,关联人员(如上级等),并关联相关售假公司,爬取相应信息。举例:给出的售假人员张三,他所在的公司有位合伙人李四,李四同时还经营多家公司,爬取张三的基本信息,再根据所爬取到的张三所在公司,爬取关联人员——李四。由李四出发,爬取李四相关的公司。需求:网页爬取到相关联公司误报率较高,需降低误报率。目前所使用确...

2018-08-16 17:10:55 631

转载 TCP/IP详解

TCP/IP详解学习笔记 这位仁兄写得太好了 TCP/IP详解学习笔记   这位仁兄写得太好了.http://blog.csdn.net/goodboy1881/category/204448.aspxTCP/IP详解学习笔记(...

2018-08-15 16:07:01 156

原创 2019秋招面经记录帖

2019秋招面经-主互联网篇阿里巴巴C++研发岗电话面挂经西门子-实习面经网易笔试题1、阿里巴巴C++研发岗阿里真的是突如其来的电话面试啊,还没咋准备就开始了…… 先挖个坑,有空补一下。STL了解多少,具体实现方式 准备不充分,只答出了vector、string,问到vector实现方式就有点蒙了虚函数多态与继承哪种排序算法性能最好,具体实现方法2、西门子-实习面...

2018-08-15 11:33:43 437

转载 Socket介绍

“一切皆Socket!”话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket。——有感于实际编程和开源项目研究。我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览网页时,浏览器的进程怎么与web服务器通信的?当你用QQ聊天时,QQ进程怎么与服务器或你好...

2018-08-15 11:12:46 233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除