自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

朴有天虹

文艺工科狗/编码艺术家

  • 博客(9)
  • 资源 (4)
  • 收藏
  • 关注

原创 Java调用Python并传递参数(爬虫8)

前因最近确实学习了不少的东西。 在两方面的感受最深刻: 一款APP的开发,从前到后的流程原来是这样啊。 每门语言都有它的强大之处,不是它能不能实现,而是你想不想实现。 联调方案爬虫这边已经把数据存进MySQL了。 但是和后台那边还没有想好怎么联调。 想法一: 安卓组直接提供爬虫组需要的用户信息。 怎么给?http协议?反正我不知道…想法二:

2017-04-17 15:03:25 10318 10

原创 模拟登陆西电研究生教务处(爬虫1)

一、HTTP协议HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。 用于从WWW服务器传输超文本到本地浏览器的传送协议。HTTP的请求响应模型客户端发起请求,服务器回送响应。这样就限制了使用HTTP协议,无法实现在客户端没有发起请求的时候,服务器将消息推送给客户端。 工作流程一次HTTP操作称为一个事务,其工作过程可分为四步: 1. 客户机与服务器需要

2017-04-17 15:57:47 2989

原创 爬虫之处理简单验证码

可处理简单的数字验证码。 例如:import pytesseractfrom PIL import Imageimage = Image.open('vcode.gif')vcode = pytesseract.image_to_string(image)print(vcode) 结果: 对于复杂的字母等不可识别。

2017-04-17 15:53:29 755

原创 爬虫_西电研究生教务系统_技术文档

教务系统爬虫工作初步完成关于教务系统的一系列爬取工作已经初步完成,Holi爬虫组的工作也算正式进入优化阶段。 我们需要根据后台组的需要,转换成CVS或数据库形式。需要和后台组进行商量。 实现的功能模拟登陆此为爬取数据的第一步,之前试过很多方法,遇到的问题也各种各样。 问题的解决: 模拟登陆需要很多东西,一定要根据抓包来进行数据分析,分析报头的组成形式,再模拟报头所需的东西进行模拟

2017-04-17 15:50:31 1749

原创 数据存储之CSV

一个完整的(大)数据处理可以分为这几个阶段: 数据收集数据存储数据建模数据分析数据变现。 我们APP的项目进度,已经从入门到处理了。 第一步的数据收集基本已经完成。 现在是第二步的数据存储。 讲道理,不懂点前端知识还真不好下手。 看到一堆标签也是很烦的,还好这些东西就想剥洋葱一样,一层一层剥开。 配合上《爱丽丝梦游仙境》的BeautifulSoup,就方便多了。 CS

2017-04-17 15:42:42 2481

原创 Python数据存储之MySQL(上)

PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。 PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。 PyMySQL 安装在使用 PyMySQL 之前,我们需要确保 PyMySQL 已安装。 PyMySQL 下载地址:https://github

2017-04-17 15:39:46 1567

原创 Python数据存储之MySQL(下)

上一篇关于Python和MySQL的简单联调做了学习。 这次主要是将这个过程再优化扩大点。 对教务处需要的数据都进行了处理存进数据库了。 也是对bug问题的总结。 我的编程哲学其实这里面一直有一个问题的。 之前是后台一直想要我们把数据存成CSV格式的他再读取存进数据库。 可是这件事情在Python这边就可以完成啊。 我也乐意啊,毕竟我喜欢学习。 后面我就还是用着这样的想法去做: 从C

2017-04-17 15:36:18 2607

原创 Python之爬虫和数据小解析

Holi需要。 之前爬的课表,现在需要将那些个一连串的字符串分割成想要的单独的数据,做个性化推送。 程序的前面和之前一样,模拟登录。 在处理选课/改课这个网页的时候,还是蛮复杂的。 遇神杀神,见鬼杀鬼。 爬虫 def Store(self): # 改课选课 grade_page = self.session.get( "http

2017-04-17 15:32:17 780

原创 Java+freemaker+xml生成word模板

Java利用freemaker包来操作生成word模板。 一个头疼的问题,了解了下xml。 Java也是在学习的路上。 需求自动化生成word报告,需要现有的word模板,选择后自动填入所需参数和计算后的结果。 可以减少人必要的输入,提高效率,提高准确率。 R1:静态文字word模板Step1该方法需要先手动创建一个doc模板,并保存为xml文件。 通过动态替换特定标签${}中的内容

2017-04-16 14:20:10 1092

基于opencv(python)的全景拼接

可用!!!!!!基于opencv(python)的全景拼接基于opencv(python)的全景拼接基于opencv(python)的全景拼接

2018-04-11

面试常见问题-Java

面试必备面试必备面试必备面试必备面试必备面试必备面试必备面试必备

2018-04-10

统计学习方法

统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除