- 博客(11)
- 资源 (15)
- 收藏
- 关注
原创 通过搜狗的公众号搜索爬微信公众号文章
import requests as reqimport refrom bs4 import BeautifulSoupsougou_url = "http://weixin.sogou.com/weixin?type=1&query=新闻哥"r1 = req.get(sougou_url)soup=BeautifulSoup(r1.text)data = str(soup.find_al
2017-09-23 22:33:42 2021
原创 mysql局域网内的互访权限设置
任务:局域网内的mysql数据库互访1、 win+R->cmd->回车2、输入e: -> 回车3、cd MySQL\MySQL5.5\bin(我的mysql路径:E:\MySQL\MySQL5.5\bin)4、 mysql -h localhost -u root -p ->输入密码5、数据库粒度、增删改查操作粒度:grant select,delete,update,insert
2017-09-23 16:10:49 710
原创 python3插入mysql时内容带有引号
插入mysql时,如果内容中有引号等特殊符号,会报错,解决方法可以用反斜杠转义,还可以用pymysql的一个方法自动转义:c = ''' 北京时间9月20日晚间9点半,智能供应链服务供应商百世集团将在<a class="wt_article_link" onmouseover="WeiboCard.show(2125973432,'tech',this)" href="?zw=tech" targ
2017-09-21 16:42:58 10736
原创 python3+urllib撸新浪滚动新闻爬虫
需求:爬取全部新浪新闻切入点: 新浪新闻主页组织很杂,但是通过观察可知,新浪滚动新闻中罗列了所有新闻,而且可以通过类别或日期选择查看,所以,要想爬取所有新闻,我们把切入点变为:爬取新浪滚动新闻(腾讯新闻等其他新闻网站也是如此)分析网页进入新浪滚动新闻页面:新浪滚动新闻http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&ty
2017-09-19 20:29:43 3657 6
原创 爬虫入门:urllib爬虫实例
豆瓣首页:import urllib.request #网址 url = "http://www.douban.com/" #发起一个请求 request = urllib.request.Request(url) #爬取结果 response = urllib.request.urlopen(request) data = response.read() #设置解码方式
2017-09-18 21:00:11 1261
原创 JAVA 将文件压缩为zip文件
import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io
2017-09-17 21:12:17 912
原创 使用jieba进行数据预处理(分词,过滤停用词及标点,获取词频、关键词等)
整理停用词 去空行和两边的空格#encoding=utf-8filename = "stop_words.txt"f = open(filename,"r",encoding='utf-8')result = list()for line in f.readlines(): line = line.strip() if not len(line): contin
2017-09-13 21:35:25 47268 7
原创 【Java】jersey服务调用python脚本并实现动态传参
目的:贯彻落实前后端分离的思想,即meiko那边做前端,我这里提供服务。功能:meiko发出一个url请求,放入参数,获取需要的数据。流程:步骤:1、创建maven web项目 见: http://blog.csdn.net/lk7688535/article/details/77258459 http://blog.csdn.net/lk7688535/article/details/774
2017-09-12 17:49:05 909
原创 JavaSe——9、Map家族
Map特性:和Set很像,value为null的Map就是Set。entrySet、keySet方法可以返回set集合。Map下的HashMap、LinkedHashMap、SortedMap、TreeMap、EnumMap对应于Set的HashSet、LinkedHashSet、SortedSet、TreeSet等。Map的put如果重复了key,则会覆盖value,并返回被覆盖前的valu
2017-09-11 16:54:13 818
原创 JavaSe——8、Set、List和Queue
Set特性: 重要源码解析:public interface Set< E > extends Collection< E>,和Collection类的方法一样,但是不允许元素重复(通过equals判断)。 实现基于map。HashSet特性: 重要源码解析: - Hash算法存储集合中的元素,存取查找性能好(hashcode值作为索引)。 - 由于hash算法计算存储位置,因此不能保证
2017-09-07 21:55:41 794
原创 阿里云部署并启动tomcat遇到的坑
坑1 启动速度巨慢启动tomcat时,卡在 Deploying web application directory /usr/tomcat7/webap。解决方案:修改random方式 http://www.flyat.cc/article/61685602bdcb459ba52e4d4b5121d2aahttp://www.cnblogs.com/jie-fang/p/7211574.html坑
2017-09-05 19:17:17 4022
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人