自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (3)
  • 收藏
  • 关注

原创 使用Chinese-Word-Vectors作为pytorch中的预训练向量

如何在深度学习中使用开源Chinese Word Vectors摘要:Chinese-Word-Vectors开源项目提供了100多种预训练模型,但在深度学习中使用时,加载预训练向量存在词表重复项问题。本文着重于解决加载问题。1. 起因去年半年一直在搭建我的NLP练习项目——为语音识别文本进行标点恢复,使用的技术如下所示:词向量训练BiLSTMCRF但是上面的技术在训练网络的...

2020-01-12 21:31:44 3354 1

原创 爬取微博图片数据存到Mysql中遇到的各种坑\mysql存储图片\爬取微博图片

本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768前言  由于硬件等各种原因需要把大概170多万2t左右的微博图片数据存到Mysql中.之前存微博数据一直用的非关系型数据库mongodb,由于对Mysql的各种不熟悉,踩了无数坑,来来回回改了3天才...

2018-03-13 13:08:58 959

原创 论坛评论提取\论坛内容提取\论坛用户信息提取

本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768背景 参加泰迪杯数据挖掘竞赛,这次真的学习到了不少东西,最后差不多可以完成要求的内容,准确率也还行。总共的代码,算上中间的过程处理也不超过500行,代码思想也还比较简单,主要是根据论坛的短文本特...

2018-03-13 13:06:21 1275

原创 解决CMAKE编译第三方开源软件需要下载的问题

本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768解决CMAKE编译第三方开源软件需要下载的问题经常会出现这种问题:我们从github上面下载了一些开源软件,但是这个开源软件本身其实是会下载很多其他开源软件,编译后作为软件的一部分。 看起来好像没...

2018-03-13 12:57:23 1032 1

原创 爬取携程和蚂蜂窝的景点评论数据\携程评论数据爬取\旅游网站数据爬取

本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768前言  为了获取多源数据需要到各个网站获取一些景点的评论信息和图片,首先选到了携程和蚂蜂窝这两个网站,将一些爬取过程记录下来携程分析数据  首先我们去携程的鼓浪屿景点速览看一下我...

2018-03-13 12:55:51 13162 1

原创 利用新浪API实现数据的抓取\微博数据爬取\微博爬虫

本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768利用新浪API实现数据的抓取(2018.4.16 更新) 2018.4.16 说明注意:今天有人言语恶劣地评论我的博客是垃圾,说我的代码有问题,这篇博客历史久远,是我初玩爬虫写的博客。我非常感...

2018-03-13 12:54:11 28721 5

原创 python爬取人脸识别图片数据集/python爬去图片/python爬虫

本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768前言最近在做机器学习下的人脸识别的学习,机器学习这个东西有点暴力,很大程度上靠训练的数据量来决定效果。为了找数据,通过一个博客的指导,浏览了几个很知名的数据集。几个大型数据集是通过发邮件申请进行...

2018-03-13 12:31:15 1224

原创 从照片的三维重建(3D Reconstruction)——MVS系列(1)

MVS——multi view system从多视图的密集重建(1)SFM的重建成果是稀疏三维点云,为了进入更加深刻的领域,获得更好的结果,我们进入到MVS(1)如何理解密集点云的生成原理  MVS是生成密集点云的方法,事实上,为什么我们在SFM中不能得到密集点云?因为,SFM中我们用来做重建的点是由特征匹配提供的!这些匹配点天生不密集!而使用计算机来进行三维点云重建,我们必须认识到,点云的密集程度

2017-07-09 18:20:40 44384 2

原创 从照片的三维重建(3D Reconstruction)(1)——获得Camera parameter & Intrinsic Matrix & K

从很久前我就有一个很重大的疑惑——三维重建的时候相机参数从哪里弄显然这个问题有好几种解决方法:(1)camera calibration相机标定这个方法是最常见的一种方法,但是问题在于,只能在实验室中进行,因为他需要标定板!!!!棋盘格标定板!!!这一点是在是很麻烦有木有,对于想要把重建带出实验室,带进现实生活中来看,实在是一种阻碍(2)self-calibration自标定这种方法的便利在于,他不

2017-05-18 20:26:48 4054 1

原创 Ubuntu下WPS的字体缺失解决方案

Ubuntu下wps字体缺失是一件很平常的事情,因为很多的字体是有版权的,在windows下用没有问题,但是linux下不能合法使用。但是这些字体可以通过自己安装来解决。Ubuntu下的字体安装很容易,主要是:1、找到,Ubuntu的字体文件夹,/usr/share/fonts/2、下载字体字体包下载地址其中,小一点的字体包是必须下载的,超级大的那个是我自己从纯净版的windows中提取出来的字体包

2017-04-26 19:48:44 3566 1

原创 WebGis实践(2)——再谈webContent目录结构

下笔如想要有神助,必先十足了解webContent目录文件结构如何,是件很严肃的问题,写着代码,却不知道代码怎么组织摆放,这是很伤脑筋的1、src文件夹,这个文件夹用来写一些java代码,servlet放在这里面,关于servlet的配置可以看我的这个系列的第一篇。2、重点部分web,这个文件夹,里面是网站前端的代码,下面可以有css,images,index.jsp,用几个东西就可以建出你自己的网

2017-04-23 18:06:58 754

原创 网页处理实践(4)——对selenium做异常处理

对selenium做异常处理在使用selenium的过程中我们经常遇到对网页操作的报错,常常程序会停留在这一步,没有办法继续下去,这时候我们就需要对程序做一个异常处理处理的最终目标是达到,程序在遇到错误的时候,能够继续运行下去,但是同时也会在log日志文件中进行记录。处理方法如下:对于save函数,其内部有使用selenium进行网页内容获取的部分# python代码def save(baseUr

2017-04-23 14:59:05 3706

原创 Ubuntu安装intel集显驱动

ubuntu一般使用这个网址上的工具下载地址 INTEL GRAPHICS UPDATE TOOL FOR LINUX* OS V2.0.2 进行驱动安装!!!注意选对合适的版本,不同工具版本对应不同的ubuntu版本,16.10或者16.04等等安装好之后,进入软件,在使用软件过程中,可能会报错,报错内容一般是源没有通过审核,这个问题不是驱动安装程序的问题,这个问题是和我们自己使用的软件源有关

2017-04-16 20:20:05 19923 1

原创 Ubuntu文件管理器的默认设置

关于Ubuntu的文件管理器,它是一个很好用的应用(一切皆应用),但是有时候我自己用它的时候不把它当做应用来看待所以造成了很多问题最近遇到了这样的情况:文件管理器默认显示了以”.”符号开头的文件和文件夹(在linux里,”.”是隐藏的象征)。这让我很苦恼,原来都是默认不显示的东西,结果现在却显示出来了,太让人不开心了。尝试在文件管理器的上方“查看”菜单栏里面取消选择“显示隐藏文件”,但是再次打开,又

2017-04-16 20:03:09 3715

原创 Ubuntu16与php-mbstring不得不说的故事

mbstring的坑入坑Ubuntu很久了,当然还在初级使用阶段,于是乎遇到了phpadmin安装中的一个大坑1、问题描述mbstring is missing for phpmyadmin in ubuntu 16.04我兴高采烈地在百度中流畅地输入了这些问题,并且愉快地找到了和我一样误入歧途,苦寻归途的前辈,但是,他们的方法对我没用1、sudo apt-get install php7.0-mb

2017-04-14 17:28:19 7187 4

原创 腾讯云Ubuntu服务器使用(2)

腾讯云apache80端口和tomcat8080端口互换1、准备工作确定是以apt-get方式安装apache以及tomcat同时通过sudo service apache2 stopsudo service tomcat8 stop将两者的服务停止,这样不容易在配置的时候产生端口冲突2、修改apache对于apache来说,我们要进入他的目录对于apt-get自动安装来说,目录为:/etc/ap

2017-04-14 13:10:31 1033

原创 ubuntu运行故障处理(1)

ubuntu待机开启后出现应用窗口边缘渲染错误从昨天起,电脑频繁在待机重启后出现应用的窗口渲染错误,具体表现为窗口左上角的关闭、最小化、最大化按钮变成了空白的一条对于这个问题我表示百思不得其解,1、试过了更新软件和系统sudo apt-get updatesudo apt-get upgrade结果没有什么用,并没有效果,重启后还是会出现一样的故障2、思考最近做了什么会引起故障的操作,发现,最近重

2017-04-11 15:14:26 375

原创 WebGis实践(1)

简单使用Idea创建web项目最近学校的互联网软件开发开始进入上机实习阶段了,开发最难的莫过于开头,再此跟随着实习进度写下一些上机心得,既为自己加强记忆,也为和我一样对java web抱有畏惧的人一些共勉。1、关于idea的项目结构可以看到几个文件夹:(1).idea(2)out(3)src(4)web这其中.idea、out文件夹都不要我们关心,这两个文件夹里的东西都是自动生成的其次src文件夹,

2017-04-10 22:02:24 1063

原创 网页处理实践(3)——python+selenium+firefox,不弹出窗口,静默模式运行

selenium+firefox,不弹出窗口,静默模式运行在使用selenium驱动有前端显示的浏览器(如firefox,chrome等)我们会经常遇到浏览器不停弹出的情况十分烦人,有没有方法解决,答案是有:通过使用pyvirtualdisplay,创建虚拟屏幕,将浏览器运行在这个虚拟的屏幕之中1、首先下载依赖包,我是在python中使用的$ sudo apt-get install xvfb py

2017-04-10 15:49:07 11230 4

原创 网页处理实践(2)——Uubntu上python+Selenium+Firefox

1、安装selenium1、apt-get install selenium或者2、pip install selenium2、安装Firefoxapt-get install Firefox3、安装Firefox的官方 geckodrivergeckodriver下载地址,需要翻墙 下载地址、不需翻墙将下载好的文件放入 /usr/bin/ 下。在Python下运行以下代码from sel

2017-04-10 10:08:10 494

原创 网页处理实践(1)

网页处理——BeautifulSoup处理网页入门实践1、去除HTML文档中的注释 在处理html的过程中我们发现,注释也会被作为一个子节点,但是这不是我们需要的from bs4 import BeautifulSoup, Commentsoup = BeautifulSoup(html,"lxml")comments = soup.findAll(text=lambda text:isins

2017-04-06 20:19:12 347

原创 腾讯云Ubuntu服务器使用(1)

腾讯云ubuntu上mysql远程连接一直以来都是在云服务器本地上使用mysql,最近突然想远程连接,结果突然发现,远程连接好坑啊,竟然连不上(腾讯真的不是为了逼迫用户使用它提供的数据库服务么?QAQ)在此分享我与腾讯抗争成功的经验 如何成功远程连接?1、检查你的腾讯安全组(很重要,如果在这里没有放开端口,其他的什么方法都会失去效果)一定要确保你在安全组设置中的入站规则中,开放3306端口,如我图中

2017-03-16 11:19:25 2012

原创 Android开发系列——listfragment的使用例子

Android开发系列——listfragment的使用例子1、fragment简介我对fragment的理解是基于activity的,对于大多数的基本开始发时,我们最先遇到的就是用activity来开发。 简单的例子,新建一个最基本的android空白界面,我们得到的是一个可以显示一个空白界面的app。一个activity对应着一个layout。 但是fragment则是基于activity,

2017-01-27 01:36:04 1171 1

原创 Git 的使用,与git和github共同使用

Git 的使用,与git和github共同使用1.git 和 gihub的关系1.1gitgit是一个版本控制系统 相对于CVS还有SVN,git有明显的优势, 1.支持离线开发,对于远程库没有依赖,没有网也可以同样编辑 2.分支功能使得在不影响稳定版本代码的情况下,在其他分支中进行开发。 3.使用ssh协议,与远程库沟通更快。除此之外也有更快的处理速度。1.2gith

2016-12-11 18:21:35 376

原创 ubuntu使用phpAdmin网页管理Mysql数据库

1.为什么使用phpAdmin对于ubuntuServer这样的无界面系统,什么东西都靠命令行显然对于我等linux入门级选手十分难以接受,对于编程的速度也会有限制,毕竟视觉上更方便观看的Mysql的管理系统对于提升作业速度十分有效。2.需要哪些软件(1)apache2服务器,用来运行phpAdmin软件(2)php支持软件(3)mysql软件(连mysql都没有,你管理空气么)(4)phpAdmi

2016-12-11 17:54:47 2622

原创 ubuntu下的git服务器禁止用户shell登录

ubuntu下的git服务器禁止用户shell登录(1)禁止的原因为了进行团队项目开发,我们经常会使用分布式版本管理系统,其中git是现今最为重要和常用的分布式管理系统。著名的gitHub是在git系统的基础上为各种有内容托管需求的人提供托管服务的一个网站,但是GitHub的免费服务只能创建公开的仓库。如果我们不想把自己的代码开源,想私有代码,那么建立一台git服务器也是一个不错的选择。在建立好

2016-12-11 14:47:56 5414

原创 JDBC操作数据库——一点错误中的小收获

今天,在我尝试把我做的登录进行第二次尝试的时候,我用了错误的信息来进行登录登录实验,结果网页报错了,看了一下console里的报错信息"Illegal mix of collations (cp866_general_ci,IMPLICIT) and (utf8_general_ci,C~~~~~"查了一下资料,哦,原来是我的数据库里的各个column的编码选项不统一,

2016-09-07 16:53:30 406

转载 JDBC操作数据库——resultset的操作小窍门

对于如下代码:……ResultSet rs=s.executeQuery("select * from friends");……当我们直接用rs.getXXX(X)的方法读取第一行的数据时会出现异常,这是由于初始的记录指针指向的是第一条记录的上一条记录,也就是第0条记录,当然实际不存在第0条记录,所以就会出现异常。所以一般如果要顺序读出所有记录一般用一下的一

2016-09-06 20:34:56 385

原创 FlyBytes项目日记(1)

从照片三维重建这是我在大学以来第一次作为主导者来做一个这样的项目。从一开始其实是存有很大的迷茫的,VR和3D倒是听说了不少,也常常听到学设计的、动画制作的,还有学工程的会用3Dmax来做一些3维模型,但是,从照片中提取出3D的模型,这可就听的很少了。这里有几个很明显的难点在我眼前:(1)一张单独的照片是没有任何深度信息的,我们要用到的是围绕物体多角度的多张照片。在一张照片上没有任何可以

2016-07-23 15:32:38 403

原创 在VC++中用SQL语句为access加字段时注意事项

最近在写老师留的一道学生管理系统的题,用到了access,在用vc的ADO操作m_pConnection->Execute(_bstr_t("ALTER TABLE student ADD COLUMN De TEXT"),NULL , adCmdText);加新字段时一直编译无错但程序无法执行功能,最后在多次试验后终于发现了一个关键点:如果有以下的操作m_pRecordset->

2015-05-29 12:31:31 658

geckodriver

Ubuntu64位,在使用Selenium驱动firefox时要用到的一个驱动

2017-04-10

VB6.0的通讯录

VB实现的简单地通讯录程序,用VB直接操作access数据库,进行信息插入,删除,查询,方便使得使用起来可以简单。

2016-01-09

数据结构(第一版)习题与解析

老版的文档,虽然已经不再实用了,但是其中的参考价值还是有的。

2015-10-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除