python
文章平均质量分 52
旭氏美术馆
很高兴认识你
展开
-
python数据处理简单回归建模及预测
这里利用一组数据,8对入湖河流主要污染物通量和浓度数据,作为训练数据,进行一元线性回归,建立回归模型,并用模拟数据0.8浓度值进行预测,预测值为114.27。感觉用python进行数据处理和建模还是很有意思的# 19.11.14import numpy as npfrom pandas import read_csvfrom matplotlib import pyplot as p...原创 2019-11-14 22:00:06 · 1432 阅读 · 0 评论 -
正则表达式的几种re包匹配方式比较
re.match():要求正则表达式和匹配内容的开头相同,从第一个开始匹配,返回第一个成功匹配的结果。即要限定头部一致。re.search():扫描整个字符串,返回第一个成功的匹配,不需要头部一致。附示例代码:...原创 2018-09-26 16:21:12 · 1063 阅读 · 0 评论 -
正则表达式笔记re.S
re.S:匹配包括’\n’(换行符)的内容,因为往往用’.‘进行匹配时,’.'不会匹配换行符。总之,有这个可以匹配包含换行符的内容,及匹配内容有换行情况存在,没有这个匹配到的是没有换行情况的内容。result(匹配结果):result[1]:第一个(.*?)匹配的内容。result.group():显示包括正则表达式所写的内容和匹配内容两部分。result.group(1):与resu...原创 2018-09-26 15:59:34 · 337 阅读 · 0 评论 -
python的yield生成器简单理解
yield:第一次遇到时返回yield后的推算,不执行yield后的代码,相当于暂停函数,next()下一次遇到yield时,继续从yield后执行。g=[x**2 for x in range(5)]这是一个可迭代对象g=(x**2 for x in range(5))这是一个生成器来由:生成器每次next()时依据yield后的算法生成,占用内存小。菲波那切数列:def ...原创 2018-09-19 20:19:09 · 233 阅读 · 0 评论 -
利用python对大量html文件的图片内容进行base64加密
最近利用python处理了两千多个html文件,对每一个html中的img标签中的图片进行了base64加密,感觉python还是很强大的,其中自有的base64库真的是非常方便,简单的一行就能实现base64的加密和解密,简洁而高效。原创 2018-09-18 20:55:03 · 1587 阅读 · 0 评论 -
Python网络爬虫:利用正则表达式爬取豆瓣电影top250排行前10页电影信息
在学习了几个常用的爬取包方法后,转入爬取实战。 爬取豆瓣电影早已是练习爬取的常用方式了,网上各种代码也已经很多了,我可能现在还在做这个都太土了,不过没事,毕竟我也才刚入门…… 这次我还是利用正则表达式进行爬取,怎么说呢,有人说写正则表达式很麻烦,很多人都不愿意用正则表达式了,不过正则表达式是我第一个学习的爬取方式,也是我最有感觉的一种方法了,我也喜爱用这种方法,当然我现在的正则表达式写的肯定还...原创 2018-09-10 22:16:45 · 6454 阅读 · 3 评论 -
Python网络爬虫:利用pyquery进行‘豆瓣图书’中‘新书速递’条目爬取
前面学习了正则表达式、BeautifulSoup方法的网络爬取方式,本次学习使用pyquery方法的爬取,爬取内容同之前的博客(参考我之前的博客:https://blog.csdn.net/ChenXvYuan_001/article/details/82421955),这里不再赘述。 我的体会是pyquery有些类似之前的BeautifulSoup方法,同样是利用一些方法进行爬取,而且利用到了...原创 2018-09-06 23:18:00 · 483 阅读 · 0 评论 -
Python网络爬虫:Selenium驱动浏览器做各种动作(跳转、输入、点击、下拉等)
之前学习使用了pyquery包的爬虫,这次学习利用selenium包,这个包主要是可以驱动浏览器进行一系列动作,包括打开浏览器、给搜索框输入指定内容、点击搜索按钮、跳转页面等动作,通过selenium包里的一些方法可以轻松实现这些动作。 不光如此,再进行爬虫时有些网页会有js的渲染(之前没有深入了解过js,对于这个渲染一词也确实了解的不是很明白,不过这里先记下这个原因吧),如果利用之前的requ...原创 2018-09-09 15:11:20 · 3889 阅读 · 0 评论 -
Python网络爬虫:利用BeautifulSoup爬取‘豆瓣读书’中的‘新书速递’条目
上一节用了正则表达式进行爬虫,那个方法关键在于正则表达式(Regular Expression之后简称RE)的书写,我的猜想是会有一些要提取的内容的RE写起来会很复杂,甚至很难写出来(当然,只是我的猜想,做的爬虫并不多),所以利用BeautifulSoup(之后简称BS)就不用写那些复杂的RE了,BS更多用到了一些属性,比如典型的find()、find_all()(这让我想起re里的findall...原创 2018-09-05 22:49:06 · 1218 阅读 · 0 评论 -
Python网络爬虫:利用正则表达式方法爬取‘’豆瓣读书‘’中‘’新书速递‘’条目
1.简述:正则表达式是爬虫的方法之一,这里利用Requests库进行爬取,尽管Urllib也能进行爬取,但过程过于繁琐,在了解Urllib的爬取过程后,没有进行实战演练,但在学习了Requests的爬取后,进行了实战学习,因为考虑到确实之后会多用到Requests包,所以这一步还是要好好掌握学习一下的:)另外,还用到re包,主要在利用正则表达式进行爬虫是时用到匹配(re.match)、查找(re....原创 2018-09-05 13:08:04 · 2413 阅读 · 6 评论