当前搜索:

[python爬虫] 招聘信息定时系统 (二).调用pyinstaller包生成exe文件

前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中;这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作。整个系列主要分为五部分,共五篇文章,文章比较基础,希望对您有所帮助,如果文章中存在错误或不足之处。 ...
阅读(3919) 评论(3)

[python] 专题九.Mysql数据库编程基础知识

在Python网络爬虫中,通常是通过TXT纯文本方式存储,其实也是可以存储在数据库中的;同时在WAMP(Windows、Apache、MySQL、PHP或Python)开发网站中,也可以通过Python构建网页的,所以这篇文章主要讲述Python调用MySQL数据库相关编程知识。从以下几个方面进行...
阅读(4327) 评论(0)

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 ...
阅读(48224) 评论(19)

[python] 专题八.多线程编程之thread和threading

这篇文章主要是参考Wesley J. Chun的《Python核心编程(第二版)》书籍多线程部分,并结合我以前的一些实例进行简单分析。主要包括线程基础知识、thread模块、threading模块,及三个方法代码: (1) 创建一个Thread的实例,传给它一个函数;(2) 创建一个Thread...
阅读(17772) 评论(6)

[python] 专题七.网络编程之套接字Socket、TCP和UDP通信实例

很早以前研究过C#和C++的网络通信,Python网络编程也类似。同时最近找工作笔试面试考察Socket套接字、TCP\UDP区别比较多,所以这篇文章主要精简了《Python核心编程(第二版)》第16章内容。内容包括:服务器和客户端架构、套接字Socket、TCP\UDP通信实例和常见笔试考题。文...
阅读(6877) 评论(5)

[Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

最近研究搜索引擎、知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数,但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。 纪伯伦曾说过:“你无法同...
阅读(11837) 评论(4)

[Python学习] 专题六.局部变量、全局变量global、导入模块变量

定义在函数内的变量有局部作用域,在一个模块中最高级别的变量有全局作用域。本文主要讲述全局变量、局部变量和导入模块变量的方法。参考:《Python核心编程 (第二版)》 全局变量的一个特征是除非删除掉,否则它们存活到脚本运行结束,且对于所有的函数,它们的值都是可以被访问的。然而局部变量,就像它们存放...
阅读(10130) 评论(0)

[Python] 专题五.列表基础知识 二维list排序、获取下标和处理txt文本实例

通常测试人员或需要处理一些txt文本内容,而此时使用Python是比较方便的语言。Python不光在爬取网上资料上方便,还在NLP自然语言处理方面拥有独到的优势。这篇文章主要简单的介绍使用Python处理txt汉字文字,希望文章对你有所帮助或提供一些见解。 一. list二维数组排序 列表基础知识...
阅读(15379) 评论(0)

[Python学习] 简单爬取CSDN下载资源信息

这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。
阅读(3190) 评论(0)

[python学习] 模仿浏览器下载CSDN源文并实现PDF格式备份

最近突然想给自己的博客备份下,看了两个软件:一个是CSDN博客导出软件,好像现在不能使用了;一个是豆约翰博客备份专家,感觉都太慢,而且不灵活,想单独下一篇文章就比较费时。而且我的毕业论文是基于Python自然语言相关的,所以想结合前面的文章用Python实现简单的功能:1.通过网络下载本体的博客,...
阅读(3621) 评论(2)

[python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

本文主要是总结最近学习的论文、书籍相关知识,主要是Natural Language Pracessing(自然语言处理,简称NLP)和Python挖掘维基百科Infobox等内容的知识。 此篇文章主要参考书籍《Natural Language Processing with Pyt...
阅读(5692) 评论(5)

[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,但是上面这种分析HTML来爬取网站内容的方法存在很多弊端,譬如:正则表达式被HTML源码所约束,而不是取决于更抽象的结构;网页结构中很小的改动可能会导致程序的中断。所以下面介绍Beautiful So...
阅读(14268) 评论(1)

[python学习] 简单爬取图片网站图库中图片

最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取游讯网图库中的图片。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片。通过浏览游讯网发现它的图库URL为,其中全部图片为0_0_...
阅读(10642) 评论(0)

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现;后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识。由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助。 一.维基百科和Infobox         Inf...
阅读(14727) 评论(6)

[Python学习] 专题四.文件基础知识

该篇文章主要讲述了Python文件基础知识,包括文件的打开、读写、关闭操作、使用循环读写文件及迭代器的知识. file_obj=open(filename[, mode[, buffering]]) 返回一个文件对象(file object) — filename文件名(唯一强制参数),希望对大家...
阅读(2470) 评论(0)

[Python学习] 简单网络爬虫抓取博客文章及思想介绍

前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要...
阅读(9847) 评论(16)

[Python学习] 专题三.字符串的基础知识

在Python中最重要的数据类型包括字符串、列表、元组和字典等.该篇主要讲述Python的字符串基础知识.包括转义字符串 、raw原始字符串、unicode字符串、格式化字符串,及其使用方法和基本操作,基础知识仅分享与大家学习。
阅读(3299) 评论(4)

[Python学习] 专题二.条件语句和循环语句的基础知识

前面讲述了"专题一.函数的基础知识",而这篇文章讲述的Python的条件语句和循环语句的基础知识.主要内容包括: 1.条件语句:包括单分支、双分支和多分支语句,if-elif-else 2.循环语句:while的使用及简单网络刷博器爬虫 3.循环语句:for的使用及遍历列表、元...
阅读(3291) 评论(1)

[Python学习] 专题一.函数的基础知识

最近才开始学习Python语言,在学习视频中发现讲述的函数知识觉得非常不错,所以就写了第一篇Python学习的文章分享给大家.主要内容:1.Python安装与基本输入输出,print()函数和raw_input()函数简单用法.2.讲解函数的基本知识:(1).系统提供内部函数(2).第三方提供...
阅读(4516) 评论(8)
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 253万+
    积分: 2万+
    排名: 398
    牛人博客
    博客专栏
    最新评论