自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天下我心

安徐正静利威德

  • 博客(8)
  • 收藏
  • 关注

原创 网络爬虫-3(共?):网页解析器实现

网页解析器的目的 及 四种网页解析器的类型: 结构化解析——DOM(Document Object Model)树。结构如下: 网页解析器- Beautiful Soup - 基本语法 ↓↓↓↓↓ 【Beautiful Soup技术文档】 ...

2019-03-25 20:02:16 324

原创 网络爬虫-2(共?):知识框架-及-URL管理器实现

谨以此记录个人学习过程,以期为后来者提供一丝半毫之参考。爬虫构造过程整体框架:URL管理器:管理待抓取URL集合和以抓取URL集合。防止重复抓取/防止重复抓取URL管理器实现方式:内存/关系数据库/缓存数据库网页下载器:将URL对应网页下载到本地的工具。 || python中网页下载器分类: ...

2019-03-25 16:00:25 315

原创 网络爬虫-1(共?):爬取网页的预备知识(简单爬取 / 虚拟头信息)——连接url

谨以此记录个人学习过程,以期为后来者提供一丝半毫之参考。准备工作:pip installurllib第一:实现基本网页抓取。第二:有些网站不能通过机器简单访问。需要使用代理绕过服务器的鉴别阻拦。第三: 考虑把User-Agent做成一个列表,以便随机使用。常见 【User-Agent】和参考代码有区别,没有使用随机 IP。f...

2019-03-25 14:59:15 312

转载 常见 User-Agent 大全

window.navigator.userAgent 1) ChromeWin7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1 2) FirefoxWin7:Mozilla/5.0 (Windows NT 6.1;...

2019-03-25 12:13:12 2456

原创 tensorflow

http://www.tensorfly.cn/

2019-03-24 22:33:42 102

原创 【上中课程】词云Word Cloud(标签云、词频分析、文本分析)的实现——应用jieba库和wordcloud库

词云,又称文字云、标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。常见于博客、微博、文章分析等。基本概念:1.语 料 库:预料库是我们要分析的所有文档的集合2.中文分词:指的是将一个汉字序列切成一个一个单独的词3.停 用 词:数据处理的时候,自动过滤掉某些字或词...

2019-03-24 14:23:54 2499

原创 发明专利、实用新型专利——下载步骤

专利下载步骤:1.首先从知网查得其专利号2.而后,进入中国专利布告公告网址,输入相应专利号3.点击【实用新型专利】链接,即可进入浏览页面进行下载。中国专利布告公告网址——【http://epub.sipo.gov.cn/index.action】...

2019-03-11 20:28:46 5944

原创 词频分析准备工作——jieba库、WordCloud库的安装。

pip包的升级:1.pipshow pip 查看当前pip版本【pip如有新版本一般都会在控制面板实时显示的】2.python -m pip install --upgrade pip 升级pipjieba中文分词第三方库的安装:这个也属于第三方库,需要单独下载安装。一、在官网中下载jieba压缩包。【https://pypi.org/project/jieba/】...

2019-03-06 20:52:19 1881 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除