我的python笔记——频繁使用的字符串

第一步-给变量命名

greet="您好,吃了吗"
print(greet+"张三")
print(greet+"李四")
print(greet+"王五")
#注意#:变量中间不能有空格,变量复制不能有数字开头,变量不能用引号

第二步——如果你想改变已经被复制的变量

greet="Yo what is up"
print(greet+"张三")
print(greet+"李四")
print(greet+"王五")

你只需要改变等号后面的求值即可

注意:greet=你好吃了吗   “greet”叫做变量名    引号里面的内容叫做“求值”

    #变量一旦发生替换就找不到之前的值了

第三步——你想改变当前的变量且想保留之前变量的值

greet="你好,吃了吗"
greet_chinese=greet
greet_english="Yo what is up"
greet=greet_english
print(greet+"张三")
print(greet+"李四")
print(greet+"王五")

此时他的求值结果依旧是英文打招呼方式

第四步:如果此时想改变打招呼的方式

greet="你好,吃了吗"
greet_chinese=greet
greet_english="Yo what is up"
greet=greet_english
print(greet+"张三")
print(greet+"李四")
print(greet+"王五")
print(greet_chinese+"张三")
print(greet_chinese+"李四")

#只需要你自己改变变量就好

### 小红书话题数据抓取与词云图生成 #### 环境准备 为了实现从小红书平台抓取特定话题下的笔记内容并最终形成词云图展示,首先需要完成一系列准备工作。这包括但不限于安装必要的库文件以及配置开发环境。对于 Python 开发者而言,主要依赖 `requests` 或 `selenium` 库来发起 HTTP 请求或模拟浏览器行为访问目标页面;借助 `BeautifulSoup` 和 `lxml` 解析 HTML 文档提取所需信息;利用 `jieba` 进行中文分词处理以便于后续构建词频统计表单;最后依靠 `wordcloud` 及其配套的颜色映射函数绘制出美观大方的词云图像。 ```bash pip install requests beautifulsoup4 lxml jieba wordcloud matplotlib selenium ``` #### 数据获取流程 针对小红书这类具有较强反爬机制的社会化媒体网站,在实际操作过程中应当注意遵循官方 API 使用条款或者采取适当措施规避被封禁的风险。具体来说: - **请求伪装**:设置合理的 User-Agent 字符串模仿真实用户的浏览习惯; - **频率控制**:设定恰当的时间间隔防止短时间内频繁发送过多请求触发安全防护机制; - **验证码应对**:当遇到图形验证环节时考虑引入第方 OCR 服务识别解决方案或是人工干预方式解决。 一旦成功获取到包含指定主题标签的文章列表链接,则可以通过遍历每篇文章详情页的方式进一步挖掘有价值的信息片段[^1]。 #### 关键数据抽取 在确定要分析的具体字段之后(例如文章标题、正文描述),可以运用正则表达式匹配模式精准定位待提取的内容部分。考虑到自然语言处理的需求,还需额外关注去除HTML标记符号干扰项的工作。此外,如果涉及到多级嵌套结构的数据源读取任务,则建议采用递归算法提高代码可维护性和扩展性。 ```python import re from bs4 import BeautifulSoup def clean_html(raw_html): cleaner = re.compile('<.*?>') cleantext = re.sub(cleaner, '', raw_html) return cleantext.strip() # 假设 soup 是已经加载好的 BS 对象 text_data = [] for item in soup.find_all('div', class_='post-item'): title = item.select_one('.title').get_text() content = clean_html(str(item.select_one('.content'))) text_data.append(f"{title} {content}") ``` #### 构建词频分布模型 有了初步整理后的纯文本资料集作为输入参数传递给结巴分词工具后,即可得到由若干个独立词语组成的序列集合。在此基础上计算各个词条出现次数进而建立权重关系矩阵用于指导下一步骤——即调用 WordCloud 类实例创建可视化的文字云朵图案。 ```python import jieba from collections import Counter words_list = [] for txt in text_data: seg_result = list(jieba.cut(txt)) words_list.extend(seg_result) counter = dict(Counter(words_list).most_common()) print(counter) # 输出前 N 名高频词汇及其对应数量 ``` #### 绘制词云图片 最后一步就是根据之前累积下来的统计数据渲染成直观易懂的画面形式呈现出来啦!这里除了基本的功能外还可以自定义字体样式、背景颜色等属性让成品更加个性化哦~ ```python from wordcloud import WordCloud import matplotlib.pyplot as plt wc = WordCloud(font_path='simhei.ttf', background_color="white", max_words=200, width=800, height=600) img = wc.generate_from_frequencies(counter) plt.imshow(img) plt.axis("off") # 不显示坐标轴 plt.show() ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值