python
phoenix_te
努力转行中
展开
-
selenium 模块
目前学习到了selenium,看了一些介绍博客后,自己也动手实验了下,现做一些介绍,以后会利用此模块做写一个爬取动态页面的程序。selenium常用的几个模块from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support im...原创 2018-03-16 11:19:30 · 444 阅读 · 0 评论 -
python 抓取淘宝价格信息
接着上一回。这段程序实现从淘宝主页开始,输入搜索信息(搜索‘手表’),确定搜索后,爬取结果前20页所有的价格信息和地区信息(其他信息也可以获取,暂时只获取了这两个),最后用matplotlib绘制了手表价格与数量的频率图。可以看出来,普通手表价格集中在50-400元左右。下面介绍程序思路:思路还是利用selenium模块打开网页,返回页面源码,然后利用bs4解析源码,获取信息。这次尝试在selen...原创 2018-03-17 20:40:59 · 2788 阅读 · 0 评论 -
python 线程间通信
线程间通信主要用到了Event()方法,我对其感性认知类似于锁。当一个线程里event调用等待方法wait()时,该线程即被堵塞,需要另一个线程使用event的set()方法,线程阻塞消失。这里还涉及到队列queue的一些使用,在代码里进行解释。import threadingimport loggingfrom queue import Queueimport timedef get...原创 2018-03-22 15:41:59 · 1758 阅读 · 0 评论 -
python词云制作
主要是学习了用jieba包来作分词,然后用wordcloud包来作词云,最后用matplotlib来输出图片"""词云与输出图形的包"""import matplotlibmatplotlib.use('TkAgg')import matplotlib.pyplot as pltfrom wordcloud import WordCloud, STOPWORDS"""分词包 jieba"...原创 2018-03-13 16:59:45 · 519 阅读 · 1 评论 -
python 爬取图片
基本思路是先获取图片的信息再用urllib库的方法下载。但是基本会遭遇反爬虫机制,先在下面放一段爬百度图片的代码,无法运行(虽然已经加了headers信息),可见百度的反爬虫还是太厉害。。。。。from selenium import webdriverimport timeimport osfrom bs4 import BeautifulSoupimport urllibfrom u...原创 2018-03-19 17:27:09 · 336 阅读 · 0 评论 -
python 爬虫初试
先阐述一下自己对爬虫的理解。url即网址,每个网页都有唯一的url,浏览器输入网址(url),即是向服务器发送请求,服务器得到请求后,发送一些文件到本地(即html,css,javascrip等文件),浏览器通过解析这些文件可视化的呈现给我们,我们所看到就是浏览器将文件可视化的结果。因此,要获取网页的内容,先就要获取网页的源码,然后在源码上定位各个标签(tag),获取标签间我们需要的内容。原本我以...原创 2018-03-13 18:49:20 · 681 阅读 · 0 评论 -
python 爬虫(二)
在很久之前,看过知乎一个问题,“如何评价咪蒙?”,问题下的最高赞回答里对咪蒙的文章做了一些分析,大致是获取了咪蒙博客里30篇文章,做了词云频度分析。我对此也做了一番尝试:首先是找到咪蒙的新浪博客查看源代码,这也是我第一次接触javascript文件,bs4的文件解析是不会获取js文件的,这也是我第一次尝试时困惑不解的地方,明明源代码里有的标签却找不到,后来打印出来才发现了不同。后来网上寻找方法,又...原创 2018-03-13 20:54:31 · 145 阅读 · 0 评论 -
python 多线程初试 与logger模块
对线程的一些理解:一个程序为一个进程(process),一个进程下可以有多个线程(threading),至少有一个线程。线程是最小的运行单位,多个线程共享一个进程的所有资源,每个线程执行不同的任务。看到一个形象的解释是,进程是一个房子,里面的人是线程。如果有多个人的话,许多人共享房子里的资源。有时某些资源在一段时间里只能一个人使用(比如厕所),某些资源在一段时间里只能由固定数量的人使用(比如厨房在...原创 2018-03-20 19:06:00 · 5436 阅读 · 0 评论 -
python 多线程 锁 概念
我对锁的理解: 锁 即是对资源的一种占有,锁的是资源而不是线程。 一条线程在使用某项资源时,获取了锁,那么此时 锁 的状态就是锁住的。如果在该线程未释放锁时,其他线程就无法获取锁,也就无法使用资源。 用下面一段程序在简单解释一下: import threadingimport loggingimport timetotal = 0l...原创 2018-03-21 17:34:10 · 195 阅读 · 0 评论