python
陌上行走
就读于东南大学
展开
-
python中sort和sorted函数
在学习python的过程中,感觉python中的排序相和c++中的泛型算法还是比较相似的,但相对于c++而言更加简单易用。python中列表的内置函数sort()可以对列表中的元素进行排序,而全局性的sorted()函数则对所有可迭代的序列都是适用的。1、内置函数sort()原型:sort(fun,key,reverse=False)参数fun是表明此sort函数是基于何种算法进行原创 2016-06-08 21:36:27 · 24073 阅读 · 4 评论 -
python3实现网络爬虫(6)--正则表达式和BeautifulSoup配合使用
这一次介绍下正则表达式和BeautifulSoup结合使用。 对于正则表达式,在python中是一种很好的工具,可与帮助我们匹配原创 2016-11-21 17:04:57 · 8104 阅读 · 0 评论 -
Pycharm及python安装详细教程
首先我们来安装python1、首先进入网站下载:点击打开链接(或自己输入网址https://www.python.org/downloads/),进入之后如下图,选择图中红色圈中区域进行下载。2、下载完成后如下图所示3、双击exe文件进行安装,如下图,并按照圈中区域进行设置,切记要勾选打钩的框,然后再点击Customize install原创 2016-09-25 21:27:28 · 742337 阅读 · 58 评论 -
python3实现网络爬虫(7)-- 使用ip代理抓取网页
在抓取一个网站的信息时,如果我们进行频繁的访问,就很有可能被网站检测到而被屏蔽,解决这个问题的方法就是使用ip代理 。在我们接入因特网进行上网时,我们的电脑都会被分配一个全球唯一地ip地址供我们使用,而当我们频繁访问一个网站时,网站也正是因为发现同一个ip地址访问多次而进行屏蔽的,所以这时候如果我们使用多个ip地址进行随机地轮流访问,这样被网站检测的概率就很小了,这时候如果我们再使用多个不同的he原创 2016-12-05 17:05:27 · 6781 阅读 · 0 评论 -
python3实现网络爬虫(5)--模拟浏览器抓取网页
本来准备继续分析BeautifulSoup的,但是好多网页都是反爬虫的,想分析没法分析了 ,那么就跳一节吧,我们先看看如何模拟浏览器进行访问网页,然后在折回去继续说BeautifulSoup。原创 2016-11-29 23:33:37 · 16930 阅读 · 0 评论 -
python3中eval函数用法简介
python中eval函数的用法十分的灵活,这里主要介绍一下它的原理和一些使用的场合。下面是从python的官方文档中的解释: The arguments are a string and optional globals and locals. If provided, globals must be a dictionary. If provided, locals can原创 2016-12-03 10:50:13 · 153359 阅读 · 30 评论 -
使用python对文件中的单词进行提取
由于需要使用一个纯单词组成的文件,在网上下载到了一个存放单词的文件,但是里面有中文的解释,那就需要做一下提取了。 文本的形式如下: 所见即所得,这个文本是有规律的,每个单词为一行,紧接着下一行便是单词的解释,有了这种规律我们就很好处理了。 首先我们来将文件的数据读取出来:#coding:utf-8file_object = open原创 2017-08-11 15:41:25 · 35438 阅读 · 1 评论 -
pycharm中使用anaconda部署python环境
今天来说一下python中一个管理包很好用的工具anaconda,可以轻松实现python中各种包的管理。相信大家都会有这种体验,在pycharm也是有包自动搜索和下载的功能,这个我在前面的一篇博客中有相关的介绍(详情请查看点击打开链接),但是这种功能对于一些包是可以使用的,但是总是会遇到有些包下载失败或查询不到的时候,这个时候就会让人很苦恼了。这里我们就来说一下anaconda的好处。原创 2017-09-24 15:43:09 · 342127 阅读 · 21 评论 -
python中比较运算符与其他语言的差异
我们都知道,在c、c++等这些语言中,如果出现3<x<7的情况,那么程序是先执行3<x,然后得到true或false,然后再与7进行比较,最后得出结果。那么在python中,这个还是不是这么回事呢?对于x<y<==这个表达式,python中等价于“x<y and y<=z”,也就是说,在python里这个比较的方式是贴近于我们的数学思维的。当然,这个不仅仅局限于“<”号,当然是对于我们使用的这些比较的运算符都是成立的。原创 2017-12-03 16:55:14 · 1763 阅读 · 1 评论 -
python正则中最短匹配
这是因为在正则中,‘*’、‘+’、‘?’这些是贪婪匹配,如用 a*,操作结果是尽可能多地匹配模式。所以当你试着匹配一对对称的定界符,如 HTML 标志中的尖括号。匹配单个 HTML 标志的模式不能正常工作,因为 .* 的本质是“贪婪”的 。在这种情况下,解决方案是使用不贪婪的限定符 *?、+?、?? 或 {m,n}?,尽可能匹配小的文本。原创 2017-12-23 15:51:32 · 6392 阅读 · 0 评论 -
python3中input输入浅谈
今天谈一下关于python中input的一些基本用法(写给新手入门之用,故只谈比较实用的部分)。 首先,我们可以看一下官方文档给我们的解释(在python的shell中输入命令即可): 上面的英文说的是什么呢?大家有兴趣的可以自己在网上翻译一下,大致说的就是input这个函数,第一个参数是提示语,它默认是空的。在我们使用input的时候,会从标准输原创 2017-10-08 20:40:09 · 143957 阅读 · 13 评论 -
文档的相似度(1)--Jaccard相似度与文档的shingling
在当今的计算机高速发展的时代,对于文章的查重等涉及到数据比对的需求越来越高了。 为了识别字面上相似的文档,日常生活中我们所做的就是比对两个文档中相似的语句的比重,如果大部分内容都是相同的话,那么我们就会判定这两篇文档很大程度上是有抄袭嫌疑的。其实这个过程完全是可以类比到计算中来的,自己看了资料刚好写了一个简单的文档相似度分析的程序,刚好分享下。 在编程中,我们可以利用集合的原创 2017-03-15 21:18:28 · 3514 阅读 · 1 评论 -
python中模拟浏览器抓取网页(-)
对于平时我们抓取网页的内容时,比较倾向于直接利用urllib进行抓取(这里我就基于python的2.7版本进行解说,对于python3之后的版本,是将python中的urllib和urllib2和并成了urllib),但有些网站设置了防采集的功能,会拒绝爬虫进行数据的采集,这时候便可以模拟浏览器进行网页访问,然后抓取需要的数据。下面是一个简单的访问:import urlliburl="ht原创 2016-11-25 19:22:53 · 26519 阅读 · 2 评论 -
python3实现网络爬虫(4)--BeautifulSoup使用(3)
这一次我们继续来讲一下BeautifulSoup的相关知识,说一下BeautifulSoup导航树的相关内容。在上一次的博客中我们了解到findAll函数通过标签的名称和属性来查找标签,但有的时候在进网页中的内容爬取时,我们会发现有些我们想要获取的元素并不是都可以通过名称来获得的,因为我们要考虑到有些网站在编写的时候,只有一些需要特殊效果的标签会进行属性值的设置,而有些普通的标签是不会进行属性原创 2016-11-18 16:23:45 · 20284 阅读 · 1 评论 -
python3实现网络爬虫(3)--BeautifulSoup使用(2)
在这一次的内容中,我们继续讨论BeautifulSoup的一些操作,我们这次只讨论几个在实践中用处特别大的几个函数。原创 2016-11-11 22:16:53 · 7242 阅读 · 9 评论 -
python3实现网络爬虫(2)--BeautifulSoup使用(1)
这一次我们来了解一下美味的汤--BeautifulSoup,这将是我们以后经常使用的一个库,并且非常的好用。BeautifuleSoup库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中,这首歌是素甲鱼唱的。就像它在仙境中的说法一样,BeautifulSoup尝试化平淡为神奇。它通过定位HTML标签来格式化和组织复杂的网络信息,用简单易用的Python对象为我们展现XML结构原创 2016-11-07 17:10:03 · 8470 阅读 · 1 评论 -
python3实现网络爬虫(1)--urlopen抓取网页的html
准备开始写一些爬虫原创 2016-10-31 17:24:29 · 10360 阅读 · 1 评论 -
python使用ip代理抓取网页
在抓取一个网站的信息时,如果我们进行频繁的访问,就很有可能被网站检测到而被屏蔽,解决这个问题的方法就是使用ip代理 。在我们接入因特网进行上网时,我们的电脑都会被分配一个全球唯一地ip地址供我们使用,而当我们频繁访问一个网站时,网站也正是因为发现同一个ip地址访问多次而进行屏蔽的,所以这时候如果我们使用多个ip地址进行随机地轮流访问,这样被网站检测的概率就很小了,这时候如果我们再使用多个不同的he原创 2016-07-24 22:26:19 · 20828 阅读 · 3 评论 -
python分析作业提交情况
这次做一个比较贴近我实际的东西:要求: 将服务器中交作业的学生(根据文件的名字进行提取)和统计成绩的表格中的学生的信息进行比对,输出所有没有交作业的同学的信息(学号和姓名),并输出所交的作业中命名格式有问题的文件名的信息(如1627406012_E03....)。提示:提示:1、根据服务器文件可以拿到所有交了作业的同学的信息。2、根据表格可以拿到所原创 2017-01-17 15:28:02 · 3128 阅读 · 0 评论 -
文档的相似度(2)--最小哈希签名
打开原创 2017-03-18 23:34:13 · 8063 阅读 · 4 评论 -
文档的相似度(3)--局部敏感哈希算法
此篇博客将会接着上一篇博客继续文档相似度的分析。在上篇博客中我们已经可以利用最小哈希签名对文档间的相似度进行分析了,但是我们应该要发现,及时可以使用最小哈希签名将大文档压缩成小的签名同时保持任意对文档之间的预期相似度,但是高效寻找具有最大相似度的问的那个对仍是不可能的。主要原因在于,即使文档本身的数目并不很大,但需要比较的文档对的数目可能很大。例如: 假定有100万篇文档原创 2017-03-19 21:02:33 · 4762 阅读 · 2 评论 -
文档的相似度(4)--总结
经过起那三篇博客的介绍,关于文档相似度的分析已经基本结束了,下面做下总结。 此处给出一个完整的相似项发现方法: 首先找出可能的候选对相似文档集合,然后基于该集合发现真正的相似文档。必须强调的是,这种方法可能会产生伪反例,即某些相似文档对由于没有进入候选对所以最终没有被识别出来。同样,该方法也可能产生伪正例,即在评估了某些候选对后,发现其相似度不足。(1)选择某个原创 2017-03-19 21:16:22 · 1545 阅读 · 2 评论 -
java调用python代码
在做项目的时候,有的时候由于合作人员之间所会的编程语言的不同,会导致项目合作中的一些问题,很多时候需要不同语言之间的调用,这次就分享一下java调用python代码的东西。一、python代码运行 巧妇难为无米之炊。首先,要确保python环境配置完好,并且相应的python代码可以运行。这个就不在这里进行讲述了,如果有需要可以查看我之前的一些文章。二、java调用...原创 2018-09-02 16:47:55 · 11255 阅读 · 3 评论