- 博客(9)
- 资源 (4)
- 收藏
- 关注
原创 Java调用Python并传递参数(爬虫8)
前因最近确实学习了不少的东西。 在两方面的感受最深刻: 一款APP的开发,从前到后的流程原来是这样啊。 每门语言都有它的强大之处,不是它能不能实现,而是你想不想实现。 联调方案爬虫这边已经把数据存进MySQL了。 但是和后台那边还没有想好怎么联调。 想法一: 安卓组直接提供爬虫组需要的用户信息。 怎么给?http协议?反正我不知道…想法二:
2017-04-17 15:03:25 10370 10
原创 模拟登陆西电研究生教务处(爬虫1)
一、HTTP协议HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。 用于从WWW服务器传输超文本到本地浏览器的传送协议。HTTP的请求响应模型客户端发起请求,服务器回送响应。这样就限制了使用HTTP协议,无法实现在客户端没有发起请求的时候,服务器将消息推送给客户端。 工作流程一次HTTP操作称为一个事务,其工作过程可分为四步: 1. 客户机与服务器需要
2017-04-17 15:57:47 3057
原创 爬虫之处理简单验证码
可处理简单的数字验证码。 例如:import pytesseractfrom PIL import Imageimage = Image.open('vcode.gif')vcode = pytesseract.image_to_string(image)print(vcode) 结果: 对于复杂的字母等不可识别。
2017-04-17 15:53:29 778
原创 爬虫_西电研究生教务系统_技术文档
教务系统爬虫工作初步完成关于教务系统的一系列爬取工作已经初步完成,Holi爬虫组的工作也算正式进入优化阶段。 我们需要根据后台组的需要,转换成CVS或数据库形式。需要和后台组进行商量。 实现的功能模拟登陆此为爬取数据的第一步,之前试过很多方法,遇到的问题也各种各样。 问题的解决: 模拟登陆需要很多东西,一定要根据抓包来进行数据分析,分析报头的组成形式,再模拟报头所需的东西进行模拟
2017-04-17 15:50:31 1800
原创 数据存储之CSV
一个完整的(大)数据处理可以分为这几个阶段: 数据收集数据存储数据建模数据分析数据变现。 我们APP的项目进度,已经从入门到处理了。 第一步的数据收集基本已经完成。 现在是第二步的数据存储。 讲道理,不懂点前端知识还真不好下手。 看到一堆标签也是很烦的,还好这些东西就想剥洋葱一样,一层一层剥开。 配合上《爱丽丝梦游仙境》的BeautifulSoup,就方便多了。 CS
2017-04-17 15:42:42 2516
原创 Python数据存储之MySQL(上)
PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。 PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。 PyMySQL 安装在使用 PyMySQL 之前,我们需要确保 PyMySQL 已安装。 PyMySQL 下载地址:https://github
2017-04-17 15:39:46 1589
原创 Python数据存储之MySQL(下)
上一篇关于Python和MySQL的简单联调做了学习。 这次主要是将这个过程再优化扩大点。 对教务处需要的数据都进行了处理存进数据库了。 也是对bug问题的总结。 我的编程哲学其实这里面一直有一个问题的。 之前是后台一直想要我们把数据存成CSV格式的他再读取存进数据库。 可是这件事情在Python这边就可以完成啊。 我也乐意啊,毕竟我喜欢学习。 后面我就还是用着这样的想法去做: 从C
2017-04-17 15:36:18 2619
原创 Python之爬虫和数据小解析
Holi需要。 之前爬的课表,现在需要将那些个一连串的字符串分割成想要的单独的数据,做个性化推送。 程序的前面和之前一样,模拟登录。 在处理选课/改课这个网页的时候,还是蛮复杂的。 遇神杀神,见鬼杀鬼。 爬虫 def Store(self): # 改课选课 grade_page = self.session.get( "http
2017-04-17 15:32:17 803
原创 Java+freemaker+xml生成word模板
Java利用freemaker包来操作生成word模板。 一个头疼的问题,了解了下xml。 Java也是在学习的路上。 需求自动化生成word报告,需要现有的word模板,选择后自动填入所需参数和计算后的结果。 可以减少人必要的输入,提高效率,提高准确率。 R1:静态文字word模板Step1该方法需要先手动创建一个doc模板,并保存为xml文件。 通过动态替换特定标签${}中的内容
2017-04-16 14:20:10 1113
基于opencv(python)的全景拼接
2018-04-11
统计学习方法
2018-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人