关闭
当前搜索:

[python爬虫] 招聘信息定时系统 (二).调用pyinstaller包生成exe文件

前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中;这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作。整个系列主要分为五部分,共五篇文章,文章比较基础,希望对您有所帮助,如果文章中存在错误或不足之处。 1.Python爬取招聘信息,并且存储到MySQL数据库中; 2.调用pyinstaller包将py文件打包成exe可执行文件; 3.设置Windows系统的计划,制作定时任务...
阅读(3799) 评论(2)

[python] 专题九.Mysql数据库编程基础知识

在Python网络爬虫中,通常是通过TXT纯文本方式存储,其实也是可以存储在数据库中的;同时在WAMP(Windows、Apache、MySQL、PHP或Python)开发网站中,也可以通过Python构建网页的,所以这篇文章主要讲述Python调用MySQL数据库相关编程知识。从以下几个方面进行讲解: 1.配置MySLQ 2.SQL语句基础知识 3.Python操作MySQL基础知识 4.Python调用MySQL示例 最后希望文章对你有所...
阅读(4101) 评论(0)

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 1.获取标签之间内容 2.获取超链接之间内容 3.获取URL最后一个参数命名图片或传递参数 4.爬取网页中所有URL链接 5.爬取网页标题title两种方法 6.定位table位置并爬取属性-属性值 7.过滤等标签 8.获取等标签内容...
阅读(41304) 评论(18)

[python] 专题八.多线程编程之thread和threading

这篇文章主要是参考Wesley J. Chun的《Python核心编程(第二版)》书籍多线程部分,并结合我以前的一些实例进行简单分析。主要包括线程基础知识、thread模块、threading模块,及三个方法代码: (1) 创建一个Thread的实例,传给它一个函数;(2) 创建一个Thread的实例,传给它一个可调用的类对象;(3) 从Thread派生出一个子类,创建一个这个子类的实例。希望对你有所帮助吧!尤其是Python初学者~...
阅读(16477) 评论(6)

[python] 专题七.网络编程之套接字Socket、TCP和UDP通信实例

很早以前研究过C#和C++的网络通信,Python网络编程也类似。同时最近找工作笔试面试考察Socket套接字、TCP\UDP区别比较多,所以这篇文章主要精简了《Python核心编程(第二版)》第16章内容。内容包括:服务器和客户端架构、套接字Socket、TCP\UDP通信实例和常见笔试考题。文章有详细的原理及代码和运行结果,希望文章对你有所帮助,如果有不足之处,还请海涵~...
阅读(6469) 评论(5)

[Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

最近研究搜索引擎、知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数,但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。 纪伯伦曾说过:“你无法同时拥有青春和关于青春的知识;因为青春忙于生计,没有余暇去求知;而知识忙于寻求自我,无法享受生活。”同样现在找工作的我,无法在拥有扎实基础知识的同时又兼顾深度的项目理解,但我更倾向于分享知识,因为它就是寻求自我,就是...
阅读(11231) 评论(4)

[Python学习] 专题六.局部变量、全局变量global、导入模块变量

定义在函数内的变量有局部作用域,在一个模块中最高级别的变量有全局作用域。本文主要讲述全局变量、局部变量和导入模块变量的方法。参考:《Python核心编程 (第二版)》 全局变量的一个特征是除非删除掉,否则它们存活到脚本运行结束,且对于所有的函数,它们的值都是可以被访问的。然而局部变量,就像它们存放的栈,暂时地存在,仅仅只依赖于定义它们的函数现阶段是否处于活动。当一个函数调用出现时,其局部变量就进入声明它们的作用域。在那一刻,一个新的局部变量名为那个对象创建了,一旦函数完成,框架被释放,变量将会离开作用域。...
阅读(8633) 评论(0)

[Python] 专题五.列表基础知识 二维list排序、获取下标和处理txt文本实例

通常测试人员或需要处理一些txt文本内容,而此时使用Python是比较方便的语言。Python不光在爬取网上资料上方便,还在NLP自然语言处理方面拥有独到的优势。这篇文章主要简单的介绍使用Python处理txt汉字文字,希望文章对你有所帮助或提供一些见解。 一. list二维数组排序 列表基础知识、列表排序介绍、二维列表排序、lambada表达式 二. 处理txt文本 读取文件&列表添加、列表排序、获取面积字符串、源代码及运行结果...
阅读(14009) 评论(0)

[Python学习] 简单爬取CSDN下载资源信息

这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。...
阅读(2945) 评论(0)

[python学习] 模仿浏览器下载CSDN源文并实现PDF格式备份

最近突然想给自己的博客备份下,看了两个软件:一个是CSDN博客导出软件,好像现在不能使用了;一个是豆约翰博客备份专家,感觉都太慢,而且不灵活,想单独下一篇文章就比较费时。而且我的毕业论文是基于Python自然语言相关的,所以想结合前面的文章用Python实现简单的功能:1.通过网络下载本体的博客,包括图片,通过写消息头模拟登录实现下载CSDN文章;2.在通过Python把HTML转换成PDF格式,利用xhtml2pdf和PISA尝试失败,希望文章对你有所帮助。...
阅读(3478) 评论(2)

[python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

本文主要是总结最近学习的论文、书籍相关知识,主要是Natural Language Pracessing(自然语言处理,简称NLP)和Python挖掘维基百科Infobox等内容的知识。 此篇文章主要参考书籍《Natural Language Processing with Python》Python自然语言处理,希望对大家有所帮助。书籍下载地址: 所谓“自然语言”,是指人们日常交流使用的语言,如英语、印地语随着不断演化,很难用明确的规则来刻画。 从广义上,“自然语言处理”(...
阅读(5376) 评论(4)

[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,但是上面这种分析HTML来爬取网站内容的方法存在很多弊端,譬如:正则表达式被HTML源码所约束,而不是取决于更抽象的结构;网页结构中很小的改动可能会导致程序的中断。所以下面介绍Beautiful Soup库爬取网页知识的基本用法及安装。...
阅读(12538) 评论(1)

[python学习] 简单爬取图片网站图库中图片

最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取游讯网图库中的图片。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片。通过浏览游讯网发现它的图库URL为,其中全部图片为0_0_1到0_0_75,简单来说文章就两句话:如何分析源代码通过正则表达式提取指定URL;如何通过Python下载图片。...
阅读(9749) 评论(0)

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现;后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识。由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助。 一.维基百科和Infobox         Infobox究竟是个什么东西呢?维基百科作为目前规模最大和增长最快的开放式的在线百...同时讲述了正则表达式等相关知识。...
阅读(14455) 评论(6)

[Python学习] 专题四.文件基础知识

该篇文章主要讲述了Python文件基础知识,包括文件的打开、读写、关闭操作、使用循环读写文件及迭代器的知识. file_obj=open(filename[, mode[, buffering]]) 返回一个文件对象(file object) — filename文件名(唯一强制参数),希望对大家有所帮助...
阅读(2405) 评论(0)

[Python学习] 简单网络爬虫抓取博客文章及思想介绍

前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要介绍了如何手动爬取新浪播客和CSDN博客的思想和方法.如果有错误或不足之处,请海涵!...
阅读(9521) 评论(16)

[Python学习] 专题三.字符串的基础知识

在Python中最重要的数据类型包括字符串、列表、元组和字典等.该篇主要讲述Python的字符串基础知识.包括转义字符串 、raw原始字符串、unicode字符串、格式化字符串,及其使用方法和基本操作,基础知识仅分享与大家学习。...
阅读(3209) 评论(2)

[Python学习] 专题二.条件语句和循环语句的基础知识

前面讲述了"专题一.函数的基础知识",而这篇文章讲述的Python的条件语句和循环语句的基础知识.主要内容包括: 1.条件语句:包括单分支、双分支和多分支语句,if-elif-else 2.循环语句:while的使用及简单网络刷博器爬虫 3.循环语句:for的使用及遍历列表、元组、文件和字符串 基础知识仅供大家学习...
阅读(3208) 评论(0)

[Python学习] 专题一.函数的基础知识

最近才开始学习Python语言,在学习视频中发现讲述的函数知识觉得非常不错,所以就写了第一篇Python学习的文章分享给大家.主要内容:1.Python安装与基本输入输出,print()函数和raw_input()函数简单用法.2.讲解函数的基本知识:(1).系统提供内部函数(2).第三方提供函数库:讲解如何安装httplib2第三方函数库,再做了个简单的网页爬虫例子(3).用户自定义函数.希望文章对大家有所帮助,才开始学习python知识,如果文章中有错误或不足之处,还请海涵,也希望大家提出意见与君共...
阅读(4308) 评论(6)
    个人资料
    • 访问:2326956次
    • 积分:21613
    • 等级:
    • 排名:第413名
    • 原创:270篇
    • 转载:10篇
    • 译文:0篇
    • 评论:1651条
    个人博客
    作者:杨秀璋
    学历:本科-北京理工大学
               硕士-北京理工大学
    现任教于贵财财经大学信息学院
    http://www.eastmountyxz.com

    简介:自幼受贵州大山的熏陶,养成了诚实质朴的性格。经过寒窗苦读,考入BIT,为完成自己的教师梦,放弃IT、航天等工作,成为贵财一名大学教师,并想把自己所学所感真心传授给自己的学生,帮助更多陌生人。

    贵州纵美路迢迢,
    为负劳心此一遭。
    收得破书三四本,
    也堪将去教尔曹。

    娜美人生,醉美生活。
    他和她经历风雨,慢慢变老。
    博客专栏
    牛人博客
    最新评论