python
weixin_40902563
这个作者很懒,什么都没留下…
展开
-
Python实现死锁避免算法——银行家算法
在复习操作系统的时候,顺手实现了一遍银行家算法。对于理论,本人理解了,也根据书本提供的文字描述用Python实现了一遍,虽然网上已经有很多相同的例子,但为了理解透彻,自己实现了一遍。#!/usr/bin/env python3# -*- coding: utf-8 -*-""" @Author ChenYuan @Name 银行家算法.py @Describe @Version 1.0"""import numpy as npclass BankerAlgo原创 2020-07-20 13:06:57 · 757 阅读 · 0 评论 -
python爬取中关村手机信息
需要环境:python3.x,requests,pandas, lxml,re在这里我爬取了中关村手机信息的手机型号、手机图片、参考价格、京东价格、CPU型号、后置摄像头像素、前置摄像头像素、电池容量以及屏幕尺寸#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport requestsfrom lxml import...原创 2020-04-09 00:28:53 · 2098 阅读 · 11 评论 -
python实现隐马可夫算法和维特比算法,用于中文标注
(一)算法介绍隐马尔可夫模型(HMM)就是估算隐藏于表面事件背后的事件的概率模型。一般包含观测序列,隐序列,转移概率分布,发射概率分布以及初始状态。维特比(viterbi)算法属于隐马尔可夫模型中的对于解码时的一种算法,依据最后一个时刻中概率最高的状态,逆向通过找其路径中的上一个最大部分最优路径,从而找到整个最优路径。(二)算法原理假设观测序列长度为T,隐序列长度为N,Vt[s,t]表示在...原创 2020-04-08 23:59:48 · 595 阅读 · 0 评论 -
MatchZoo进阶——自动调参方法
本人在这里已经给出了MatchZoo的一个简单上手,这一次我会给出为模型自动调参的方法。这一次使用的变量,和简单上手中的变量是一样的,所以我都是直接复制,并删掉一些不需要的地方。加载数据:train_pack_processed = preprocessor.fit_transform(train) # 其实就是做了一个字符转id操作,所以对于中文文本,不需要分词dev_pack_pro...原创 2019-12-25 11:16:53 · 541 阅读 · 2 评论 -
中科院深度文本匹配开源项目MatchZoo简单上手
MatchZoo是一个Python环境下基于TensorFlow开发的开源文本匹配工具,让大家更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。文本匹配包含了文本相似度、文本蕴含、问答匹配等问题,在这里,我会简单的使用微软公开的MSR数据集进行相似度计算解说,代码由本人参考matchzoo官方的解说完成的,如果有什么错误,请大胆指出,我会进...原创 2019-12-23 17:44:12 · 1544 阅读 · 2 评论 -
python简单思维实现K-means
自己定义了几个点,随机选择初始中心,也可以random去选取#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport mathdata = [[2, 10], [2, 5], [8, 4], [5, 8], [7, 5], [6, 4], [1, 2], [4, 9]]cluster_center = [[2, 1...原创 2019-10-30 22:07:58 · 110 阅读 · 0 评论 -
python实现概率最大中文分词算法
需要环境:python3.x,numpy,pandas需要文档:中文词典和对应的词频,中文词的个数尽可能多,最好计算该文档的语料库足够大样例如下:#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport pandas as pdimport numpy as npclass Pwms(object): ...原创 2019-10-16 14:24:03 · 717 阅读 · 0 评论 -
python实现正向最大匹配算法和反向最大匹配算法
正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,并且要做到最大匹配。反向最大匹配算法:从右到左将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,并且要做到最大匹配。这份代码对正向最大匹配算法和反向最大匹配算法进行封装,需要在代码的目录下存放一份词典,词典取名为:chineseDic.txt。样例如下:冮,nr劼人,nr勍,...原创 2019-10-06 21:29:07 · 2542 阅读 · 0 评论 -
安装stanfordnlp以及简单使用
请注意:不是stanfordcorenlp如果直接在CMD下,pip install stanfordnlp,我遇到了这个错误:于是我直接下载torch也遇到了错误,所以我在conda下,建立了一个虚拟环境,conda create -n pytorch python=3.6 //创建虚拟环境activate pytorch // 激活虚拟环境conda install torch ...原创 2019-09-10 22:31:55 · 1097 阅读 · 1 评论 -
使用WikiExtractor提取维基百科语料
WikiExtractor的链接:https://github.com/attardi/wikiextractor需要的环境官网有写明:The tool is written in Python and requires Python 2.7 or Python 3.3+ but no additional library.意思是:基于python2.7或python3.3, 且不需要依赖于第...原创 2019-08-29 14:55:38 · 3083 阅读 · 14 评论 -
python爬取百度图片——翻页式网站爬取
小编大约于这个月月初写的这一份代码,但很不幸,大概20号,再次找百度图片翻页流的时候,发现是瀑布流且回不去了,还好代码里面留了翻页流的网址所以,现在来分享给大家。语言:python3.6库:requests, re, urllib除了requests需要pip install之外,其他两个是python自带的模块,直接调用即可。代码中的原网址:https://image.baidu.co...原创 2019-08-26 22:07:42 · 411 阅读 · 0 评论 -
继微信大更新之后,爬取微信文章+评论
微信于2018年12月21号发布了7.0.0的版本,微信手机端界面及相关链接结构改变巨大,之前的fiddle抓包爬取微信文章评论可能不适用,在此,可以直接使用网页进行微信文章+评论的爬取,不需要抓包。本文以爬取CSDN的公众号文章+评论为例。将任意一篇CSDN的文章用浏览器打开。刷新网页,在Network中找到appmsgreport?action(通常是在最下面)在之前的fiddle抓包...原创 2019-05-21 16:00:13 · 1763 阅读 · 7 评论