Python
海底小星星
这个作者很懒,什么都没留下…
展开
-
基于Python检索系统(2)爬虫
将上海理工大学的新闻中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的标题或全文爬取下来,存入News.txt 文件。简单的应用正则表达式(re模块)和字符串的处理即可实现。 导入requests模块,并使用requests.get(),可以从获得我们所需要的所有信息,得到的结果如下:原创 2017-08-09 15:26:46 · 1220 阅读 · 0 评论 -
Python学习笔记---元组(tuple)、列表(list)、字典(dict)
转载自 http://www.cnblogs.com/calmman/p/6201516.html 一、元组(tuple)元组常用小括号表示,即:( ),元素加逗号,是元组的标识。tuple = ('a','b','c','d','e','f','g')元组是不可以改变的,像字符串一样。二、列表(list)列表常用方括号表示,即:[ ];创建一个列表,只要把用逗号分隔的转载 2017-08-10 09:43:22 · 430 阅读 · 0 评论 -
基于Python检索系统(3)分词后建立数据结构
分词应用的是Jieba分词工具,将爬取得到的新闻进行中文分词,也就是为了得到以后检索要用到的关键词。我们给每个关键词建立一个单独的索引,引入间接桶,应用倒排索引的方法实现最终的结果。 建立倒排索引的过程其实主要是做好数据结构的过程。如何存放每个关键词,间接桶使用哪种数据类型,最终的索引如何实现,都是建立好这个索引结构的关键。 主要使用3个字典进行数据的存放,原创 2017-08-10 10:33:26 · 2143 阅读 · 1 评论 -
基于Python检索系统(4)最终版
from tkinter import *import jiebaimport jieba.analyse#b1函数为 全部新闻显示页面#b2函数为 检索页面 检索成功后,跳转另外一个页面def b1(): #全部新闻显示页面 #记录文件中有多少行标题 记录在count中 count=0 for line in open("jia.txt","r",enc原创 2017-08-10 10:49:36 · 3130 阅读 · 1 评论 -
基于Python检索系统(1)总体介绍
为了实现将上海理工大学的新闻可以进行关键词、关键字的检索,设计了基于Python的检索系统。系统主要分为四部分,爬虫、中文分词、建立倒排索引、检索接口。1、爬虫将上海理工大学的新闻中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的标题或全文爬取下来,存入TXT文件。简单的应用正则表达式(re模块)和字符串的处理即可实现。原创 2017-08-05 15:11:45 · 2330 阅读 · 0 评论 -
Python 模块安装
1、将模块解压到某个文件夹2、开始—》运行 —》输入: cmd —》切换到所在的目录,运行以下命令即可。C:\Users\Jia>E:E:\>cd E:\研究生\第一学期\高级数据库系统与实现\大作业\2 中文分词\jieba-0.38E:\研究生\第一学期\高级数据库系统与实现\大作业\2 中文分词\jieba-0.38>python setup.py install原创 2017-09-27 19:40:21 · 210 阅读 · 0 评论 -
Python 模块安装详细
注:原创博文,转载请注明出处:http://blog.csdn.net/m0_37887016引言:Python存在各种各样的模块供用户使用,比如运算所需的numpy模块、scipy模块、爬虫用到的beautifulsoup、文本处理用到的jieba、gensim等等。作为一个Python初学者在安装各种工具包上面浪费不少时间,总结模块安装办法与经验如下: 一、检查转载 2017-09-27 20:12:52 · 7661 阅读 · 0 评论 -
python 获取当前文件夹下所有文件名
# -*- coding: utf-8 -*- import os def file_name(file_dir): for root, dirs, files in os.walk(file_dir): print(root) #当前目录路径 print(dirs) #当前路径下所有子目录 print(file...转载 2019-07-01 19:44:09 · 1071 阅读 · 0 评论